CN112711261B

CN112711261B - 一种基于局部视野的多智能体编队规划方法

Info

Publication number: CN112711261B
Application number: CN202011603955.8A
Authority: CN
Inventors: 刘勇; 刘善琪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-12-28
Anticipated expiration: 2040-12-30
Also published as: CN112711261A

Abstract

本发明涉及一种基于局部视野的多智能体编队规划方法，包括以下步骤：步骤S3：针对第1个智能体运行步骤S4、步骤S5；步骤S4：智能体对环境进行局部观测，得到局部观测值；步骤S5：将步骤S4中得到的局部观测值输入该智能体，该智能体经预训练好的高层策略强化学习算法模型计算后输出当前时间步的动作；步骤S6：依次针对第2到N个智能体运行步骤S4、步骤S5；步骤S7：重复步骤S3到S6直到完成目标任务；使用基于局部视野的多智能体编队规划方法下的智能体仅依赖其周围的有限观测空间进行决策，摆脱了集中式规划方法必须依赖全局信息的缺点，使得该方法可用于在大尺寸地图上对多个智能体进行编队规划。

Description

一种基于局部视野的多智能体编队规划方法

技术领域

本发明属于多智能体领域，具体涉及一种基于局部视野的多智能体编队规划方法。

背景技术

多智能体已部署在许多现实世界应用中，这些应用包括无人机群，飞机牵引车和仓库机器人。在许多情况下，对于智能体而言，重要的是同时避障寻路与保持特定的队形。例如，当仓库机器人需要一起运输大型货物时。但是，当前的多智能体路径规划算法无法在这种情况下同时进行规划与保持队型，因为他们中大多数都没有考虑队形的因素。

目前有很少一部分路径规划算法专注于解决多智能体编队规划的问题。多智能体编队规划，是多智能体路径规划的一种变体问题，包含两个关键子任务：规划多个的无冲突路径，同时保持智能体的特定队形。第一个子任务可以由许多多智能体路径规划算法解决，包括基于A*的方法和基于专用搜索的方法。编队控制算法可以应用于第二项子任务。有学者提出一种运动规划的算法，介绍了非完整的机器系统下的编队方法，以及一种基于图论的控制方法，可适用于编队规划。

但是上述的方法都是集中式算法。集中计划者需要所有智能体的信息和意图以生成无冲突路径。当智能体数量增长或者地图尺寸增大时其就无法进行有效的规划。

考虑部分可观察的世界是在现实世界部署的关键基础，智能体需要仅依赖其周围的有限观测空间进行决策。

为了较好地实现多智能体编队规划方法的实际应用，多智能体编队规划方法需要同时满足以下几个条件：

(1)不依赖全局信息，基于局部视野进行多智能体编队规划，更符合实际应用场景；

(2)算法简单、高效，能够在较短的时间内在大尺寸地图上对多个智能体进行编队规划；

(3)通讯方式占用带宽小，降低实际应用难度；

(4)规划得到的编队路径轨迹总长度较短，路径精准，实际执行时，多智能体在保持目标队形的同时避障成功率高。

目前没有任何一种编队规划方法可以同时解决上述问题，从而较好地实现多智能体编队规划方法的实际应用。

发明内容

基于现有技术中存在的上述不足，本发明的目的在于提供一种基于局部视野的多智能体编队规划方法，该方法不依赖全局信息、能够在较短的时间内在大尺寸地图上对多个智能体进行编队规划，算法简单、高效，通讯方式占用带宽小，规划得到的编队路径轨迹总长度较短，路径精准，实际执行时，多智能体在保持目标队形的同时避障成功率高。

本发明的目的可以通过以下技术方案实现：

一种基于局部视野的多智能体编队规划方法，其特征在于，包括下列步骤：

步骤S1：构建全局地图坐标系，对N个智能体构建各自的智能体局部坐标系；

步骤S2：对N个智能体设定目标任务；目标任务包括N个智能体的终点位姿状态、N个智能体的目标队形；

步骤S3：针对第1个智能体运行步骤S4、步骤S5；

步骤S4：智能体对环境进行局部观测，得到局部观测值；

步骤S5：将步骤S4中得到的局部观测值输入该智能体，该智能体经预训练好的高层策略强化学习算法模型计算后输出当前时间步的动作；预训练好的高层策略强化学习算法模型通过调用预训练好的寻路子策略强化学习算法模型或预训练好的编队子策略强化学习算法模型计算当前时间步需要输出的动作；

步骤S6：依次针对第2到N个智能体运行步骤S4、步骤S5；

步骤S7：重复步骤S3到S6直到完成目标任务；

N为大于等于2的整数。

优选的，获得步骤S5中寻路子策略强化学习算法模型的预训练包括下列步骤：

步骤A1：构建全局地图坐标系，对N个智能体构建各自的智能体局部坐标系；

步骤A2：对N个智能体设定目标任务；目标任务包括N个智能体的终点位姿状态；

步骤A3：针对第1个智能体运行步骤A4、步骤A5；

步骤A4：智能体对环境进行局部观测，得到局部观测值；

步骤A5：将步骤A4中得到的局部观测值输入该智能体，该智能体经寻路子策略强化学习算法计算后输出当前时间步的动作；寻路子策略强化学习算法根据奖励值J_a来衡量决策的好坏，计算奖励值J_a的奖励函数为：

J_a＝R_g(S_t,a_t)+R_c(S_t,a_t)+R_f(S_t,a_t)+R_w(S_t,a_t)

式中，S_t是t时刻的位姿状态，a_t是t时刻所处时间步的动作，R_g(S_t,a_t)、R_c(S_t,a_t)、R_f(S_t,a_t)、R_w(S_t,a_t)是J_a的4个子奖励函数；

R_g(S_t,a_t)用于引导智能体到达终点位姿状态，R_c(S_t,a_t)用于引导智能体避免碰撞，R_f(S_t,a_t)用于引导智能体向目标前进，R_w(S_t,a_t)用于引导智能体减少原地等待；

步骤A6：依次针对第2到N个智能体运行步骤A4、步骤A5；

步骤A7：重复步骤A3到A6直到完成目标任务；

步骤A8：重复步骤A2到A7，使N个智能体与环境交互学习直到获得收敛的寻路子策略强化学习算法模型。

优选的，获得步骤S5中编队子策略强化学习算法模型的预训练包括下列步骤：

步骤B1：构建全局地图坐标系，对N个智能体构建各自的智能体局部坐标系；

步骤B2：对N个智能体设定目标任务；目标任务包括N个智能体的目标队形；

步骤B3：针对第1个智能体运行步骤B4、步骤B5；

步骤B4：智能体对环境进行局部观测，得到局部观测值；

步骤B5：将步骤B4中得到的局部观测值输入该智能体，该智能体经编队子策略强化学习算法计算后输出当前时间步的动作；编队子策略强化学习算法根据奖励值J_b来衡量决策的好坏，计算奖励值J_b的奖励函数为：

J_b＝M_q(S_t,b_t)+M_c(S_t,b_t)+M_l(S_t,b_t)+M_w(S_t,b_t)

式中，S_t是t时刻的位姿状态，b_t是t时刻所处时间步的动作，M_q(S_t,b_t)、M_c(S_t,b_t)、M_l(S_t,b_t)、M_w(S_t,b_t)是J_b的4个子奖励函数；

M_q(S_t,b_t)用于引导智能体完成目标队形，M_c(S_t,b_t)用于引导智能体避免碰撞，M_l(S_t,b_t)用于引导智能体减少队列损失L_f，M_w(S_t,b_t)用于引导智能体减少原地等待；

队列损失L_f表示当前队形与预期队形的损失值；

步骤B6：依次针对第2到N个智能体运行步骤B4、步骤B5；

步骤B7：重复步骤B3到B6直到完成目标任务；

步骤B8：重复步骤B2到B7，使N个智能体与环境交互学习直到获得收敛的编队子策略强化学习算法模型。

优选的，获得步骤S5中高层策略强化学习算法模型的预训练包括下列步骤：

步骤C1：构建全局地图坐标系，对N个智能体构建各自的智能体局部坐标系；

步骤C2：对N个智能体设定目标任务；目标任务包括N个智能体的终点位姿状态、N个智能体的目标队形；

步骤C3：针对第1个智能体运行步骤C4、步骤C5；

步骤C4：智能体对环境进行局部观测，得到局部观测值；

步骤C5：将步骤C4中得到的局部观测值输入该智能体，该智能体经高层策略强化学习算法计算后决定调用寻路或编队子策略强化学习算法模型进行计算，再按照子策略强化学习算法模型计算结果输出当前时间步的动作；高层策略强化学习算法根据奖励值J_c来衡量决策的好坏，计算奖励值J_c的奖励函数为：

J_c＝Q_c(S_t,c_t)+Q_f(S_t,c_t)+W_f*Q_l(S_t,c_t)；

式中，S_t是t时刻的位姿状态，c_t是t时刻所处时间步的动作，W_f为平衡权重值，Q_c(S_t,c_t)、Q_f(S_t,c_t)、Q_l(S_t,c_t)是J_c的3个子奖励函数；

Q_c(S_t,c_t)用于引导智能体避免碰撞，Q_f(S_t,c_t)用于引导智能体向目标前进，Q_l(S_t,c_t)用于引导智能体减少队列损失L_f；W_f用于引导智能体平衡寻路任务与编队任务；

步骤C6：依次针对第2到N个智能体运行步骤C4、步骤C5；

步骤C7：重复步骤C3到C6直到完成目标任务；

步骤C8：重复步骤C2到C7，使N个智能体与环境交互学习直到获得收敛的高层策略强化学习算法模型。

优选的，其特征在于，队列损失L_f的计算公式为：

L_f(X₁,X₂)＝||X₂-X₁Γ-1nγ^T||²

Γ＝M(θ),

式中，N为智能体的个数，X₁、X₂的其中一个为任意一个目标队形队列的坐标值，另一个为计算队列损失的队列的坐标值，X₁＝[(x₁,y₁),……,(x_N,y_N)]；X₂＝[(w₁,z₁),……,(w_N,z_N)]，1n为1*N维的全一向量，T为矩阵的转置，M为二维的旋转矩阵，θ为角度参数。

优选的，R_g(S_t,a_t)用于引导智能体到达终点位姿状态，当智能体到达终点位姿状态时，给予一个正数r_g作为奖励，否则为0，其数学表达式为：

R_c(S_t,a_t)用于引导智能体避免碰撞，当智能体发生碰撞时，给予一个负数r_c作为惩罚，否则为0，其数学表达式为：

R_f(S_t,a_t)用于引导智能体向目标前进，当智能体向目标前进时，给予一个正数r_f作为奖励，否则为0，其数学表达式为：

R_w(S_t,a_t)用于引导智能体减少原地等待，当智能体原地等待不向目标前进时，给予一个负数r_w为惩罚，否则为0，其数学表达式为：

M_q(S_t,b_t)用于引导智能体完成目标队形，当智能体完成目标队形时，给予一个正数s_q作为奖励，否则为0，其数学表达式为：

M_c(S_t,b_t)用于引导智能体避免碰撞，当智能体发生碰撞时，给予一个负数s_c作为惩罚，否则为0，其数学表达式为：

M_l(S_t,b_t)用于引导智能体减少队列损失L_f，其数学表达式为：

M_l(S_t,b_t)＝-L_f

M_w(S_t,b_t)用于引导智能体减少原地等待，当智能体原地等待不向目标前进时，给予一个负数s_w为惩罚，否则为0，其数学表达式为：

Q_c(S_t,c_t)用于引导智能体避免碰撞，当智能体发生碰撞时，给予一个负数v_c作为惩罚，否则为0，其数学表达式为：

Q_f(S_t,c_t)用于引导智能体向目标前进，当智能体向目标前进时，给予一个正数v_f作为奖励，否则为0，其数学表达式为：

Q_l(S_t,c_t)用于引导智能体减少队列损失L_f，其数学表达式为：

Q_l(S_t,c_t)＝-L_f

优选的，平衡权重值W_f的计算公式为：

式中，E_H为编队算法总步数的平均值，E_s为随机算法总队列损失差值的平均值，E_b为编队算法总队列损失差值的平均值；

总队列损失差值的计算公式为：

式中，ΔL_f为输出一个动作后的L_f减去输出该动作前的L_f，U为最后一个时间步的起始时刻；

获得E_H值、E_s值、E_b值的方法包括下列步骤：

步骤D1：设置测试环境为，N个智能体在互相视野范围内但尽量远离彼此；

步骤D2：对N个智能体设定初始位姿状态；

步骤D3：调用预训练好的编队子策略强化学习算法模型进行测试，得到此次测试条件下恢复队形所需要的编队算法总步数和编队算法总队列损失差值；

步骤D4：在与步骤D3相同的初始条件下，设置测试总步数为步骤D3得到的编队算法总步数，用随机动作策略算法进行测试，得到此次测试条件下的随机算法总队列损失差值；随机动作策略算法每步的计算结果均为随机动作；

步骤D5：通过对N个智能体设定不同的初始位姿状态重复步骤D3到D4，重复次数为M-1次，得到M-1个不同测试条件下的编队算法总步数、编队算法总队列损失差值、随机算法总队列损失差值；

步骤D6：从M次测试结果中取编队算法总步数的平均值即得E_H值，取编队算法总队列损失差值的平均值即得E_b值，取随机算法总队列损失差值的平均值即得E_s值；

M为大于等于10的整数。

优选的，局部观测包括障碍物图观测、位置图观测、到目标损失图观测、队形图观测；局部观测值包括障碍物图局部观测值、位置图局部观测值、到目标损失图局部观测值、队形图局部观测值。

优选的，障碍物图中，障碍物网格等于1，空网格等于0；

位置图中，存在智能体的网格等于该智能体的ID，否则等于0；

到目标损失图中，每个网格等于智能体从该网格到目标的最短路径的损失；损失是预先计算的；

队形图包括所有智能体的队形。

优选的，智能体的动作包括：前向直行、后向直行、左向直行、右向直行、原地等待。

相对于现有技术，本发明具有以下有益效果：

本发明中的一种基于局部视野的多智能体编队规划方法，考虑部分可观察的世界作为其在现实世界部署的关键基础，智能体需要仅依赖其周围的有限观测空间进行决策，摆脱了集中式规划方法必须依赖全局信息的缺点，使得该方法可用于在大尺寸地图上对多个智能体进行编队规划。

本发明使用分层强化学习算法将路径规划和编队规划问题分解，使他们变成不直接相关的两部分，包括高层策略强化学习算法，以及下层的寻路子策略强化学习算法和编队子策略强化学习算法。相比于端到端的强化学习方法，本发明中的分层强化学习算法可以大大降低多智能体的学习难度并可以轻松适应新环境。

本发明通过优化单独的奖励，经单独预训练先分别得到下层的寻路子策略强化学习算法模型和编队子策略强化学习算法模型，在预训练得到高层策略强化学习算法模型时只需要调用预训练好的寻路子策略强化学习算法模型和编队子策略强化学习算法模型，大大简化了算法和训练难度，在实际应用时，高层只需调用子策略即可，使得整个编队方法的计算难度也大幅降低，计算简单、高效、稳定性好。

本发明通过预测试计算出的平衡权重值来设置高层策略奖励值，可以平衡寻路子策略的奖励和编队子策略的奖励对高层策略奖励的影响，使寻路和编队子策略在最终的策略奖励函数中具有相同的权重，以此来得到更为均衡的策略。

本发明采用一种基于动作信息的通信方式辅助训练过程，具体为，第一个智能体基于自己的局部视野做出动作决策，第二个智能体基于自己的局部视野与第一个智能体的动作做出动作决策，第三个智能体基于自己的局部视野与第一个、第二个智能体的动作做出动作决策，以此类推直到所有智能体完成动作；这种通信方式占用带宽极小，只涉及智能体之间动作信息的传输，但是可以帮助智能体之间的合作任务。

本发明整体的算法可以使智能体编队在队列离散程度最小的情况下最快的到达期望的目标点。

附图说明

图1为本发明实施例的多智能体对环境进行局部观测的示意图；

图2为本发明实施例的多智能体编队规划方法流程示意图；

图3为本发明实施例在仿真环境下与VDN、CTCE算法的测试结果对比图，a、b、c分别为奖励值、队列损失、单次轨迹步数随训练交互轨迹数的变化结果图，d为本发明实施例的帕累托前沿(轨迹总长度和队列损失)图；

图4为本发明实施例在室内场景下的编队规划方法执行情况图，a、b、c、d分别为0s时刻、10s时刻、15s时刻、28s时刻的路径规划执行情况图，e为小车轨迹图，f为5s时刻模拟地图视角图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整地描述,所描述的实施例仅仅是本发明的部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明采用了一套分层强化学习的结构来分离各个子任务在训练时对互相的影响。具体而言，我们将整体的任务拆分为两个子策略与一个高层策略，两个子策略分别为路径规划策略与保持编队策略，路径规划策略只负责规划多智能体到目标的无碰撞轨迹，不理会队形究竟怎么变化，与之相对的，保持编队策略只负责考虑如何让多智能体保持或者恢复期望的队形，不需要考虑走向目标点的任务。这两个子策略并不相关，因此可以分别预训练出完全收敛的优秀子策略。但是尽管此时我们已经训练好了这两个子策略，我们还是没有解决多智能体编队规划的问题，我们仍需要一个高层策略平衡这两个子策略，决定在每一个时间步究竟应该调用哪个子策略来兼顾所有的任务，在我们的场景中就是尽量保持队形且最终可以走到目标点。因此，整体的策略决策过程为，高层策略根据当前的局部视野决定采用两个子策略之一，并将观测值传给子策略，子策略根据当前的局部视野做出与环境直接交互的动作，依次循环直到任务结束。

本发明还采用了基于动作信息的通信方式辅助训练，如图2所示，通讯的过程为首先第一个智能体基于自己的局部视野做出动作决策，第二个智能体基于自己的局部视野与第一个智能体的动作做出动作决策，第三个智能体基于自己的局部视野与第一个与第二个智能体的动作做出动作决策，以此类推直到所有智能体完成动作。

本发明的一种基于局部视野的多智能体编队规划方法，具体步骤如下：

步骤S3：针对第1个智能体运行步骤S4、步骤S5；

步骤S4：智能体对环境进行局部观测，得到局部观测值；局部观测的方法包括使用车载激光雷达和/或可进行深度探测的相机进行感知，可进行深度探测的相机包括：双目相机、RGBD相机等。局部观测包括障碍物图观测、位置图观测、到目标损失图观测、队形图观测；局部观测值包括障碍物图局部观测值、位置图局部观测值、到目标损失图局部观测值、队形图局部观测值。本实施例中，障碍物图中的障碍物网格等于1，空网格等于0；位置图中，存在智能体的网格等于该智能体的ID，否则等于0；到目标损失图中，每个网格等于智能体从该网格到目标的最短路径的损失；损失是预先计算的；队形图包括所有智能体的队形。

步骤S5：将步骤S4中得到的局部观测值输入该智能体，该智能体经预训练好的高层策略强化学习算法模型计算后输出当前时间步的动作；预训练好的高层策略强化学习算法模型通过调用预训练好的寻路子策略强化学习算法模型或预训练好的编队子策略强化学习算法模型计算当前时间步需要输出的动作；智能体的动作包括：前向直行、后向直行、左向直行、右向直行、原地等待。

步骤S6：依次针对第2到N个智能体运行步骤S4、步骤S5；

步骤S7：重复步骤S3到S6直到完成目标任务；

N为大于等于2的整数。

寻路子策略强化学习算法模型预训练时，先获得智能体局部观测值，局部观测为智能体周围一圈的局部视野，局部视野中智能体位于坐标原点，视野中的其他智能体与障碍物等分别用不同通道表示。在本发明中，我们设计了带有局部视野的仿真环境，智能体只能观测到围绕自己的有限视野(9x9)，如图1所示，我们的局部观测分为四个通道：i)障碍物图：障碍物网格等于1，空网格等于0；ii)位置图：网格包含其他智能体则等于该智能体的ID，否则为零；iii)到目标损失图：从每个网格到目标的最短路径的损失，这个损失是在训练之前预先计算的；iv)队形图：包含所有智能体目标的队形。然后设置寻路策略任务目标，寻路策略是指智能体只关心如何走到目标点，不关心如何恢复并保持队形的策略，策略输入为智能体局部观测值，输出为智能体动作，包括上下左右四个方向的移动与停止，策略学习的奖励设置为到达终点的成功与否，若成功则为正值，若在途中碰撞为负值，即最大化导航的成功率，训练至直到获得与环境交互学习到收敛的寻路策略。图1中LSTM是长短记忆网络的简称。

本实施例中，获得寻路子策略强化学习算法模型的预训练具体包括下列步骤：

步骤A3：针对第1个智能体运行步骤A4、步骤A5；

步骤A4：智能体对环境进行局部观测，得到局部观测值；

J_a＝R_g(S_t,a_t)+R_c(S_t,a_t)+R_f(S_t,a_t)+R_w(S_t,a_t)

R_g(S_t,a_t)用于引导智能体到达终点位姿状态，当智能体到达终点位姿状态时，给予一个正数r_g作为奖励，否则为0，其数学表达式为：

本实施例中，r_g＝100。

本实施例中，r_c＝-50。

本实施例中，r_f＝1。

本实施例中，r_w＝-0.25。

步骤A6：依次针对第2到N个智能体运行步骤A4、步骤A5；

步骤A7：重复步骤A3到A6直到完成目标任务；

本实施例中，获得编队子策略强化学习算法模型的预训练具体包括下列步骤：

步骤B3：针对第1个智能体运行步骤B4、步骤B5；

步骤B4：智能体对环境进行局部观测，得到局部观测值；

J_b＝M_q(S_t,b_t)+M_c(S_t,b_t)+M_l(S_t,b_t)+M_w(S_t,b_t)

本实施例中，s_q＝100。

本实施例中，s_c＝-50。

M_l(S_t,b_t)＝-L_f

队列损失L_f的计算公式为：

L_f(X₁,X₂)＝||X₂-X₁Γ-1nγ^T||²

Γ＝M(θ),

本实施例中，s_w＝-0.25

步骤B6：依次针对第2到N个智能体运行步骤B4、步骤B5；

步骤B7：重复步骤B3到B6直到完成目标任务；

高层策略强化学习算法模型预训练时，先获得智能体局部观测值，局部观测为智能体周围一圈的局部视野，局部视野中智能体位于坐标原点，视野中的其他智能体与障碍物等分别用不同通道表示。在本发明中，我们设计了带有局部视野的仿真环境，智能体只能观测到围绕自己的有限视野(9x9)，如图1所示，我们的局部观测分为四个通道：i)障碍物图：障碍物网格等于1，空网格等于0；ii)位置图：网格包含其他智能体则等于该智能体的ID，否则为零；iii)到目标损失图：从每个网格到目标的最短路径的损失，这个损失是在训练之前预先计算的；iv)队形图：包含所有智能体目标的队形。高层策略的输入为局部观测值，动作输出为决定调用哪个子策略(寻路与编队策略)与环境交互，即整体动作流程为高层策略输出哪个子策略被调用，子策略再输入当前的局部观测值，输出与环境交互的真正动作，调用的两个子策略都是预先训练好的两个策略，高层策略的任务是平衡编队寻路中的两个性能指标，即路径最短与队列离散程度最少。结合平衡权重值计算高层策略的奖励函数，若寻路奖励设置为1，队列损失奖励需要乘权重后加和得到最终奖励，这样可以得到最平衡的路径最短与队列离散程度的高层策略，与环境交互得到收敛的高层策略。实际测试时，在新的地图中直接调用上述三个训练好的模型测试即可。

本实施例中，获得高层策略强化学习算法模型的预训练具体包括下列步骤：

步骤C3：针对第1个智能体运行步骤C4、步骤C5；

步骤C4：智能体对环境进行局部观测，得到局部观测值；

J_c＝Q_c(S_t,c_t)+Q_f(S_t,c_t)+W_f*Q_l(S_t,c_t)；

本实施例中，v_c＝-50。

本实施例中，v_f＝1。

Q_l(S_t,c_t)＝-L_f

W_f用于引导智能体平衡寻路任务与编队任务；

步骤C6：依次针对第2到N个智能体运行步骤C4、步骤C5；

步骤C7：重复步骤C3到C6直到完成目标任务；

平衡权重值W_f的计算公式为：

总队列损失差值的计算公式为：

获得E_H值、E_s值、E_b值的方法包括下列步骤：

步骤D2：对N个智能体设定初始位姿状态；

M为大于等于10的整数。

本发明在仿真环境与室内环境中分别进行了测试，实验结果表明本发明相比集中的解决方案，不仅不需要依赖全局信息，而且在大地图中的表现效果要更好，本发明在1024*1024大小的地图中也可以有稳定的成功率，而集中式的方法在1024*1024大小的地图完全无法解决多智能体编队规划的问题。除此以外，相比其他分布式的强化学习方法，本发明也具有更高的成功率与收敛速度。

仿真环境下的对比实验：

环境设置：我们应用了一个网格世界模拟环境。地图大小选自20*20、32*32、512*512、1024*1024(单位：格)。障碍物密度选自0.05、0.15。我们将障碍物的极限长度设置为智能体局部视野长度的一半，这可以防止智能体之间在视野中被完全分离。对于每个地图，左上的5*5或10*10单元格(取决于地图大小)是开始位置，右下角的5*5或10*10单元格是可能的目标位置。在训练过程中，在每次轨迹开始时从带有100张不同地图的地图池中随机选择环境地图。训练时地图大小为32，障碍物密度为0.15。在实验过程中，地图是在每个轨迹开始时随机生成的，并进行了十次测试取平均值。

实验结果：

对比基于全局信息的搜索方法：

表1仿真环境实验结果对比

仿真环境实验结果对比如表1所示，Environment Setting是环境设置，Makespan是轨迹总长度，Formation Loss是队列损失，Success rate是成功率，runtime是运算时长(每条轨迹)；Ours是自己的算法，CBS、SW、A*是基于全局信息搜索的对比算法；d是障碍物密度，agent是智能体个数，mapsize是地图大小。

A*在运算时长方面表现不佳，但可以得到最佳帕累托前沿(队列损失和轨迹总长度)。SW是最先进的同时优化队列损失和轨迹总长度的集中计划器，提供了近乎最优帕累托前沿。CBS可以作为基线对比方法，因为其不能优化队列损失。

对比基于局部视野的强化学习方法：

将本实施例的算法在仿真环境下与VDN、CTCE算法的测试结果进行对比，结果如图3所示，图3中，a、b、c分别为奖励值、队列损失、单次轨迹步数随训练交互轨迹数的变化结果图，d为本实施例的帕累托前沿(轨迹总长度和队列损失)图；

VDN是一种先进的分布式(每个智能体基于自己的局部视野决策)多智能体强化学习算法，CTCE是一种集中式(所有智能体基于全部局部视野一起决策)多智能体强化学习算法。帕累托前沿中横轴为队列损失，纵轴为轨迹总长度。四个点分别是取0、1、2、3倍的平衡权重W_f计算出来的权重W。

为了公平比较，我们训练VDN和CTCE的步长比我们的方法长三倍。为了方便显示，我们已经在水平轴上缩放了我们的方法，同时我们还归一化了帕累托前沿的坐标轴。

根据我们的结果，我们注意到我们的方法在大地图中表现出色而集中式方法无法处理大地图。原因是我们方法仅涉及局部视野，因此计划时间随着地图大小或智能体个数的增加而线性增加。同时我们的方法可以处理不同的障碍物密度而无需花费额外的计算时间。与之相对的，集中方法的运行时间随地图大小、智能体个数的增长或障碍物密度增加呈指数增长。因此，它们不能应对大尺寸或高障碍物密度的地图。在小型地图中，虽然我们的方法只基于有限的视野，但也可以实现类似于集中式方法的效果。

我们注意到，其他端到端强化学习方法几乎无法获得出色的表现，因为它们都不能学会达到目标位置，所以我们无法与他们比较队列损失。在对比轨迹长度方面，我们观察到CTCE方法陷入了某种局部最佳策略，而VDN没学习到任何内容，原因是他们想同时学习寻路任务和编队任务，优化两个冲突目标会使学习陷入困境。此外，我们还注意到CTCE策略的性能优于VDN，这是由于其智能体可以从其他智能体获取信息，该信息可以提高合作的效率，这与我们方法中的沟通方式有相似之处。最后，关于我们方法的帕累托前沿，我们注意到我们的方法达到了可以平衡路径策略和保持队形策略的平衡点。该点的权重W就等于我们的平衡权重W_f。这个符合我们的理论计算和实际方法。我们使用n乘以基本权重(例如图3中0、2、3)可以得到整条帕累托前沿。

室内环境下的实验：

本实施例在三辆阿克曼小车上进行了测试，测试结果显示了本发明在现实场景下的适用性。如图4为实施例在障碍物覆盖率大于15％的室内场景下的编队规划执行情况图，图4a显示了3个阿克曼机器人在0s时刻的起始位姿状态，图4b、图4c显示了3个阿克曼机器人按照规划路径执行过程中在10s时刻、15s时刻的位姿状态，图4d显示了3个阿克曼机器人在28s时刻的终点位姿状态，e为小车轨迹图，f为5s时刻的模拟地图视角图，从起始位姿状态到终点位姿状态历时28_S，过程中无任何机器人发生碰撞，成功显示了本发明的实际可行性。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种基于局部视野的多智能体编队规划方法，其特征在于，包括下列步骤：

步骤S2：对N个智能体设定目标任务；所述目标任务包括N个智能体的终点位姿状态、N个智能体的目标队形；

步骤S3：针对第1个智能体运行步骤S4、步骤S5；

步骤S4：智能体对环境进行局部观测，得到局部观测值；

步骤S5：将步骤S4中得到的局部观测值输入该智能体，该智能体经预训练好的高层策略强化学习算法模型计算后输出当前时间步的动作；所述预训练好的高层策略强化学习算法模型通过调用预训练好的寻路子策略强化学习算法模型或预训练好的编队子策略强化学习算法模型计算当前时间步需要输出的动作；

步骤S6：依次针对第2到N个智能体运行步骤S4、步骤S5；

步骤S7：重复步骤S3到S6直到完成目标任务；

所述N为大于等于2的整数；

获得步骤S5中所述寻路子策略强化学习算法模型的预训练包括下列步骤：

步骤A2：对N个智能体设定目标任务；所述目标任务包括N个智能体的终点位姿状态；

步骤A3：针对第1个智能体运行步骤A4、步骤A5；

步骤A4：智能体对环境进行局部观测，得到局部观测值；

步骤A5：将步骤A4中得到的局部观测值输入该智能体，该智能体经寻路子策略强化学习算法计算后输出当前时间步的动作；所述寻路子策略强化学习算法根据奖励值J_a来衡量决策的好坏，计算奖励值J_a的奖励函数为：

J_a＝R_g(S_t,a_t)+R_c(S_t,a_t)+R_f(S_t,a_t)+R_w(S_t,a_t)

步骤A6：依次针对第2到N个智能体运行步骤A4、步骤A5；

步骤A7：重复步骤A3到A6直到完成目标任务；

步骤A8：重复步骤A2到A7，使N个智能体与环境交互学习直到获得收敛的寻路子策略强化学习算法模型；

获得步骤S5中所述编队子策略强化学习算法模型的预训练包括下列步骤：

步骤B2：对N个智能体设定目标任务；所述目标任务包括N个智能体的目标队形；

步骤B3：针对第1个智能体运行步骤B4、步骤B5；

步骤B4：智能体对环境进行局部观测，得到局部观测值；

步骤B5：将步骤B4中得到的局部观测值输入该智能体，该智能体经编队子策略强化学习算法计算后输出当前时间步的动作；所述编队子策略强化学习算法根据奖励值J_b来衡量决策的好坏，计算奖励值J_b的奖励函数为：

J_b＝M_q(S_t,b_t)+M_c(S_t,b_t)+M_l(S_t,b_t)+M_w(S_t,b_t)

所述队列损失L_f表示当前队形与预期队形的损失值；

步骤B6：依次针对第2到N个智能体运行步骤B4、步骤B5；

步骤B7：重复步骤B3到B6直到完成目标任务；

步骤B8：重复步骤B2到B7，使N个智能体与环境交互学习直到获得收敛的编队子策略强化学习算法模型；

获得步骤S5中所述高层策略强化学习算法模型的预训练包括下列步骤：

步骤C2：对N个智能体设定目标任务；所述目标任务包括N个智能体的终点位姿状态、N个智能体的目标队形；

步骤C3：针对第1个智能体运行步骤C4、步骤C5；

步骤C4：智能体对环境进行局部观测，得到局部观测值；

步骤C5：将步骤C4中得到的局部观测值输入该智能体，该智能体经高层策略强化学习算法计算后决定调用寻路或编队子策略强化学习算法模型进行计算，再按照子策略强化学习算法模型计算结果输出当前时间步的动作；所述高层策略强化学习算法根据奖励值J_c来衡量决策的好坏，计算奖励值J_c的奖励函数为：

J_c＝Q_c(S_t,c_t)+Q_f(S_t,c_t)+W_f*Q_l(S_t,c_t)；

步骤C6：依次针对第2到N个智能体运行步骤C4、步骤C5；

步骤C7：重复步骤C3到C6直到完成目标任务；

2.根据权利要求1所述的一种基于局部视野的多智能体编队规划方法，其特征在于，所述队列损失L_f的计算公式为：

L_f(X₁,X₂)＝||X₂-X₁Γ-1nγ^T||²

Γ＝M(θ),

3.根据权利要求2所述的一种基于局部视野的多智能体编队规划方法，其特征在于：

M_l(S_t,b_t)＝-L_f

Q_l(S_t,c_t)＝-L_f。

4.根据权利要求3所述的一种基于局部视野的多智能体编队规划方法，其特征在于，所述平衡权重值W_f的计算公式为：

所述总队列损失差值的计算公式为：

获得E_H值、E_s值、E_b值的方法包括下列步骤：

步骤D2：对N个智能体设定初始位姿状态；

步骤D4：在与步骤D3相同的初始条件下，设置测试总步数为步骤D3得到的编队算法总步数，用随机动作策略算法进行测试，得到此次测试条件下的随机算法总队列损失差值；所述随机动作策略算法每步的计算结果均为随机动作；

所述M为大于等于10的整数。

5.根据权利要求1-4中任一项所述的一种基于局部视野的多智能体编队规划方法，其特征在于：

所述局部观测包括障碍物图观测、位置图观测、到目标损失图观测、队形图观测；所述局部观测值包括障碍物图局部观测值、位置图局部观测值、到目标损失图局部观测值、队形图局部观测值。

6.根据权利要求5所述的一种基于局部视野的多智能体编队规划方法，其特征在于：

所述障碍物图中，障碍物网格等于1，空网格等于0；

所述位置图中，存在智能体的网格等于该智能体的ID，否则等于0；

所述到目标损失图中，每个网格等于智能体从该网格到目标的最短路径的损失；所述损失是预先计算的；

所述队形图包括所有智能体的队形。

7.根据权利要求6所述的一种基于局部视野的多智能体编队规划方法，其特征在于，智能体的动作包括：前向直行、后向直行、左向直行、右向直行、原地等待。