CN113759902B

CN113759902B - 多智能体局部交互路径规划方法、装置、设备及存储介质

Info

Publication number: CN113759902B
Application number: CN202110946674.0A
Authority: CN
Inventors: 田莎莎; 汪红; 帖军; 王江晴; 郑禄; 张潇; 徐科; 谢勇
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2023-10-27
Anticipated expiration: 2041-08-17
Also published as: CN113759902A

Abstract

本发明公开了一种多智能体局部交互路径规划方法、装置、设备及存储介质，该方法包括获取目标区域内各智能体的当前位置和目标位置；根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线；根据各智能体的路径规划路线控制对应的智能体移动至目标位置。由于本发明是通过各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线，根据规划路线控制对应的智能体移动到目标位置，解决了现有技术中单个智能体输入数据维度过大而无法完成多智能体实时路径规划的技术问题，提高了多智能体实时路径规划的效率。

Description

多智能体局部交互路径规划方法、装置、设备及存储介质

技术领域

本发明涉及机器控制技术领域，尤其涉及一种多智能体局部交互路径规划方法、装置、设备及存储介质。

背景技术

目前，智能体的实时路径规划越来越趋向于自动控制，在现有的多智能体实时路径规划技术中，为了保证每个智能体在移动过程中不发生碰撞，环境中任意一个智能体都需要接收其他所有智能体的数据作为输入数据，造成每个智能体输入数据的维度过大，从而造成无法完成多智能体实时路径规划。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种多智能体局部交互路径规划方法、装置、设备及存储介质，旨在解决现有技术单个智能体输入数据维度过大而无法完成多智能体实时路径规划的技术问题。

为实现上述目的，本发明提供了一种多智能体局部交互路径规划方法，所述方法包括以下步骤:

获取目标区域内各智能体的当前位置和目标位置；

根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线；

根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置。

可选地，所述获取目标区域内各智能体的当前位置和目标位置的步骤之前，所述方法还包括：

根据当前动作策略和预设探索噪声通过各智能体对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型控制设定区域内的各智能体移动；

实时获取各智能体移动过程中的经验信息，并将所述经验信息添加至对应的经验缓冲池；

根据四阶梯采样机制实时控制各智能体从对应的经验缓冲池中采集训练经验信息；

根据所述训练经验信息训练对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型，并在满足预设条件时，获得各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型。

可选地，所述经验缓冲池包括静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池；

所述根据四阶梯采样机制实时控制各智能体从对应的经验缓冲池中采集训练经验信息，包括：

获取各智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定各智能体的训练阶段判断指标；

根据前后步进关系奖励机制确定各智能体在移动过程中获得的当前奖励；

根据所述各智能体的训练阶段判断指标、所述当前奖励和预设指标阈值判断各智能体处于的训练阶段，并根据所述训练阶段确定对应智能体在各经验缓冲池的采样比例；

根据所述各智能体在各经验缓冲池的采样比例从各智能体对应的静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池中采集训练经验信息。

可选地，所述根据所述各智能体的训练阶段判断指标、所述当前奖励和预设指标阈值判断各智能体处于的训练阶段，并根据所述训练阶段确定对应智能体在各经验缓冲池的采样比例，包括：

获取各智能体的静态优秀轨迹经验缓冲池的静态优秀轨迹平均奖励；

在所述训练阶段判断指标小于预设指标阈值且所述当前奖励小于优秀轨迹平均奖励时，将第一预设比例作为对应的智能体处于学步阶段时在各经验缓冲池的采样比例；

在所述训练阶段判断指标大于预设指标阈值时，将第二预设比例作为对应智能体处于蹒跚阶段时在各经验缓冲池的采样比例；

在所述当前奖励大于优秀轨迹平均奖励时，将第三预设比例作为对应智能体处于酷跑阶段时在各经验缓冲池的采样比例。

可选地，所述实时获取各智能体移动过程中的经验信息，并将所述经验信息添加至对应的经验缓冲池，包括：

根据局部交互策略实时获取各智能体移动过程中的经验信息；

将所述经验信息添加至对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型的经验缓冲池。

可选地，所述根据局部交互策略实时获取各智能体移动过程中的经验信息，包括：

根据预设规则从所述各智能体中选取目标智能体；

以所述目标智能体为中心，从所述目标区域中选取处于预设范围内的若干个智能体；

根据所述目标智能体的参数和所述若干个智能体的参数确定所述目标智能体移动过程中的经验信息。

可选地，所述根据所述目标智能体的参数和所述若干个智能体的参数确定所述目标智能体移动过程中的经验信息，包括：

获取所述目标智能体与所述若干个智能体之间的距离；

根据所述距离从所述若干个智能体中选取预设数量的智能体；

根据所述目标智能体的参数和所述预设数量的智能体的参数确定所述目标智能体移动过程中的经验信息。

此外，为实现上述目的，本发明还提出一种多智能体局部交互路径规划装置，所述装置包括：获取模块、确定模块和控制模块；

所述获取模块，用于获取目标区域内各智能体的当前位置和目标位置；

所述确定模块，用于根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线；

所述控制模块，用于根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置。

此外，为实现上述目的，本发明还提出一种多智能体局部交互路径规划设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多智能体局部交互路径规划程序，所述多智能体局部交互路径规划程序配置为实现如上文所述的多智能体局部交互路径规划方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有多智能体局部交互路径规划程序，所述多智能体局部交互路径规划程序被处理器执行时实现如上文所述的多智能体局部交互路径规划方法的步骤。

本发明通过获取目标区域内各智能体的当前位置和目标位置；根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线；根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置。由于本发明是通过各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线，根据规划路线控制对应的智能体从对应的当前位置移动到目标位置，解决了现有技术中单个智能体输入数据维度过大而无法完成多智能体实时路径规划的技术问题，提高了多智能体实时路径规划的效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的多智能体局部交互路径规划设备的结构示意图；

图2为本发明多智能体局部交互路径规划方法第一实施例的流程示意图；

图3本发明多智能体局部交互路径规划方法一实施例的基于局部交互式多智能体四阶梯经验池的DDPG模型的框架示意图；

图4为本发明多智能体局部交互路径规划方法一实施例的四阶梯采样机制流程图；

图5为本发明多智能体局部交互路径规划方法第二实施例的流程示意图；

图6为本发明多智能体局部交互路径规划方法一实施例的智能体在目标区域内的位置示意图；

图7为本发明多智能体局部交互路径规划方法一实施例的目标智能体预设范围内智能体的示意图；

图8为本发明多智能体局部交互路径规划方法一实施例的目标智能体观测值的确定示意图；

图9为本发明多智能体局部交互路径规划装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的多智能体局部交互路径规划设备结构示意图。

如图1所示，该多智能体局部交互路径规划设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对多智能体局部交互路径规划设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、信息存储模块、网络通信模块、用户接口模块以及多智能体局部交互路径规划程序。

在图1所示的多智能体局部交互路径规划设备中，网络接口1004主要用于与网络服务器进行信息通信；用户接口1003主要用于与用户进行信息交互；本发明多智能体局部交互路径规划设备中的处理器1001、存储器1005可以设置在多智能体局部交互路径规划设备中，所述多智能体局部交互路径规划设备通过处理器1001调用存储器1005中存储的多智能体局部交互路径规划程序，并执行本发明实施例提供的多智能体局部交互路径规划方法。

本发明实施例提供了一种多智能体局部交互路径规划方法，参照图2，图2为本发明多智能体局部交互路径规划方法第一实施例的流程示意图。

本实施例中，所述多智能体局部交互路径规划方法包括以下步骤：

步骤S10：获取目标区域内各智能体的当前位置和目标位置。

需要说明的是，本实施例的执行主体可以是一种具有信息处理、网络通信以及程序运行功能的计算服务设备，例如平板电脑、个人电脑、手机等，或者是一种能够实现上述功能的电子设备、多智能体局部交互路径规划设备等，以下以多智能体局部交互路径规划设备为例，对本实施例及下述各实施例进行说明。

应该理解的是，智能体可以是智能机器人、扫地机器人、运货机器人等，目标区域为多智能体的运动区域，各智能体的当期位置可以通过各智能体内置的定位装置确定，也可以通过人工将各智能体的当前位置输入，目标位置可以一个位置确定的位置点，也可以是一个区域，本实施例对此不作限制。

步骤S20：根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线。

应该理解的是，在原有的DDPG算法的基础上新增四阶梯经验缓冲池和局部交互策略得到初始的基于局部交互式多智能体四阶梯经验池的DDPG模型，对初始的基于局部交互式多智能体四阶梯经验池深度确定性策略梯度模型训练，在满足预设条件时，得到基于局部交互式多智能体四阶梯经验池的DDPG(Four-step experience Buffer algorithm DDPGfor Locally interactive multi-agent，FSEB-DDPG-LIMA)模型

可以理解的是，每个智能体都设置有对应的基于局部交互式多智能体四阶梯经验池的DDPG模型，将每个智能体的当前位置和目标位置输入对应的基于局部交互式多智能体四阶梯经验池的DDPG模型，可以得到每个智能体的规划路线。

步骤S30：根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置。

可以理解的是，每个智能体的路径规划路线可以是该智能体的最优路线或次优路线，根据每个智能体对应的规划路线可以控制对应的智能体从该智能体的当前位置移动至该智能体的目标位置。

进一步地，为了减少各智能体输入数据维度，提高多智能体实时路径规划效率，所述步骤S10之前，所述方法还包括：根据当前动作策略和预设探索噪声通过各智能体对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型控制设定区域内的各智能体移动；实时获取各智能体移动过程中的经验信息，并将所述经验信息添加至对应的经验缓冲池；根据四阶梯采样机制实时控制各智能体从对应的经验缓冲池中采集训练经验信息；根据所述训练经验信息训练对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型，并在满足预设条件时，获得各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型。

应该理解的是，各智能体的基于局部交互式多智能体四阶梯经验池的DDPG模型的框架图可参照图3，目标区域内各智能体的当前动作策略可由μ(x_i；θ^μ)表示，其中μ为DDPG算法的函数μ，x_i为第i个智能体的当前状态，θ为策略参数；预设探索噪声可由M表示，根据该智能体的当前动作策略和探索噪声可以得到该智能体确定第i个智能体的动作策略a_i＝μ(x_i；θ^μ)+M，将得到的确定的动作策略输入第i个智能体对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型，可以控制第i个智能体执行动作a_i，从而控制第i个智能体在目标区域中移动。

可以理解的是，目标区域中的第i个智能体根据确定的动作策略执行动作a_i，得到奖励r_i，并进入下一个状态x_i+1，获得第i个智能体移动过程中的经验信息(x_i,a_i,r_i,x_i+1)，实时获取各智能体移动过程中的经验信息，将获取到的经验信息添加到对应智能体的经验缓冲池中。

可以理解的是，四阶梯采样机制是根据目标区域中各智能体所处的状态在智能体对应的经验缓冲池中采取不同采样比例的采样机制，根据四阶梯采样机制从各智能体的经验缓冲池中随机进行小批次采样，将采集到的经验信息作为训练经验信息，用训练经验信息训练对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型。

应该理解的是，各智能体的初始基于局部交互式多智能体四阶梯经验池的DDPG模型训练完成的条件，可以根据具体应用场景提前设置，例如预设条件可以设为：控制智能体走到终点或控制智能体走了特定步数，本实施例对此不作限制。

在具体实现中，从目标区域中第i个智能体的经验缓冲池中采集N条训练经验信息(x_i,a_i,r_i,x_i+1)，根据式1可求得第i个智能体在第h步的真实回报y_h：

式中，r_h为智能体h步的奖励；s_h+1为第h+1步的状态；γ为折扣因子，其中γ∈[0,1]；μ'为DDPG算法的辅助策略网络，θ^μ'为DDPG算法辅助策略网络要训练的参数；Q'为DDPG算法的辅助价值网络，θ^Q'为DDPG算法的辅助价值网络要训练的参数；y_h为第i个智能体在第h步的真实回报。

通过最小化DDPG算法价值网络Q中的损失函数L来更新DDPG算法的价值网络，其中损失函数L可由式2表示；通过式3中的抽样梯度策略更新DDPG算法的策略网络；通过式4更新DDPG算法的辅助价值网络；通过式5更新DDPG算法的辅助策略网络；在满足预设条件时，终止对初始基于局部交互式多智能体四阶梯经验池的DDPG模型的训练获得基于局部交互式多智能体四阶梯经验池的DDPG模型。

θ^Q'←τθ^Q+(1-τ)θ^Q' (式4)

θ^μ'←τθ^μ+(1-τ)θ^μ' (式5)

可以理解的是，在一个新的目标区域中进行多智能体实时路径规划时，在最初训练时，初始基于局部交互式多智能体四阶梯经验池的DDPG模型的经验缓冲池中无经验信息，可以先对经验缓冲池进行初始化处理，在各智能体的经验缓冲池中有一定数量的经验信息后，再进行训练。

进一步地，为了减少各智能体输入数据维度，提高多智能体实时路径规划效率，所述经验缓冲池包括静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池；所述根据四阶梯采样机制实时控制各智能体从对应的经验缓冲池中采集训练经验信息，包括：获取各智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定各智能体的训练阶段判断指标；根据前后步进关系奖励机制确定各智能体在移动过程中获得的当前奖励；根据所述各智能体的训练阶段判断指标、所述当前奖励和预设指标阈值判断各智能体处于的训练阶段，并根据所述训练阶段确定对应智能体在各经验缓冲池的采样比例；根据所述各智能体在各经验缓冲池的采样比例从各智能体对应的静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池中采集训练经验信息。

应该理解的是，本实施例的DDPG算法有四个经验缓冲池，分别为静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池，静态优秀轨迹经验缓冲池中存储的是通过智能算法规划好的优秀轨迹经验信息，动态优秀轨迹经验缓冲池中的轨迹经验信息中存储的是通过结合了避障策略的智能算法规划好的优秀轨迹经验信息，碰撞轨迹经验缓冲池中存储的是在智能体的运行过程中发生碰撞时的轨迹经验信息，实时轨迹经验缓冲池中存储的是智能体运动过程中实时的轨迹经验信息。

可以理解的是，在控制各智能体在移动过程中，第i个智能体每执行一个动作a_i会得到一个执行该动作对应的奖励r_i，求预设次数的平均奖励，该预设次数的平均奖励可以是与当前移动步数最近最近的预设次数的平均奖励，根据平均奖励可以确定智能体训练阶段的判断指标，例如假设需要对第i个智能体对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型进行L次训练，在每次训练开始前，对前F次训练得到的奖励求平均值得到平均奖励，对平均奖励进行分析，用最小二乘法为平均奖励拟合出一条直线，该直线即为训练阶段判断直线，该直线的斜率可用p表示，将该直线的斜率p作为训练阶段判断指标。

应该理解的是，前后步进关系奖励机制是根据智能体当前位置与障碍物之间的关系和与当前位置相邻的前一位置与障碍物之间的关系，确定智能体在移动过程中的当前奖励的奖励确定机制。

可以理解的是，智能体的训练阶段包括学步阶段、蹒跚阶段和酷跑阶段，智能体处于不同的阶段，从静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池四个经验缓冲池中的采样比例是不同的，根据智能体处于的训练阶段采用不同的比例从四个经验缓冲池中采集训练经验信息。

进一步地，为了提高多智能体实时路径规划的精确度和提高模型的训练效率，所述根据所述各智能体的训练阶段判断指标、所述当前奖励和预设指标阈值判断各智能体处于的训练阶段，并根据所述训练阶段确定对应智能体在各经验缓冲池的采样比例，包括：获取各智能体的静态优秀轨迹经验缓冲池的静态优秀轨迹平均奖励；在所述训练阶段判断指标小于预设指标阈值且所述当前奖励小于优秀轨迹平均奖励时，将第一预设比例作为对应的智能体处于学步阶段时在各经验缓冲池的采样比例；在所述训练阶段判断指标大于预设指标阈值时，将第二预设比例作为对应智能体处于蹒跚阶段时在各经验缓冲池的采样比例；在所述当前奖励大于优秀轨迹平均奖励时，将第三预设比例作为对应智能体处于酷跑阶段时在各经验缓冲池的采样比例。

应该理解的是，优秀轨迹平均奖励是智能体根据静态优秀轨迹经验缓冲池中的优秀轨迹经验从当前位置移动到目标位置所获得的奖励的平均奖励。

应该理解的是，预设指标阈值是区分智能体训练阶段的阈值，在训练阶段判断指标小于或等于预设指标阈值且当前奖励小于或等于优秀轨迹平均奖励时，可判定智能体处于学步阶段，此时将第一预设比例作为学步阶段在静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池的采样比例。

可以理解的是，在训练阶段判断指标大于预设指标阈值时，可判定智能体处于蹒跚阶段，此时将第二预设比例作为蹒跚阶段在静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池的采样比例。

可以理解的是，在当前奖励大于优秀轨迹平均奖励时，可判定智能体处于酷跑阶段，此时将第三预设比例比例作为蹒跚阶段在静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池的采样比例。

在具体实现中，本实施例的在经验缓冲池中采样的采样机制为四阶梯采样机制，四阶梯采样机制的流程图可参照图4，假设经验缓冲池总的容量为C，四个缓冲池的容量分别为C₁,C₂,C₃,C₄，从四个经验缓冲池中采集的经验信息的量分别为N₁,N₂,N₃,N₄。假设需要对第i个智能体对应的模型进行L次训练，在每次训练开始前，对第i个智能体前F次训练得到的奖励求平均值，得到平均奖励，用最小二乘法为前F次的平均奖励拟合出一条直线，该直线即为训练阶段判断直线，该直线的斜率可用p表示，将该直线的斜率p作为训练阶段判断指标，根据具体应用场景设置预设指标阈值e₁，求得静态优秀轨迹经验缓冲池中优秀轨迹平均奖励为在开始采样时，先初始化D1静态优秀轨迹经验缓冲池和D2动态优秀轨迹经验缓冲池，再初始化D3碰撞轨迹经验缓冲池和D4实时轨迹经验缓冲池，按照如下方式对训练阶段进行划分和采样：(1)在p<e₁，且智能体得到的当前奖励/>判定智能体处于学步阶段；(2)在p≥e₁时，判定智能体处于蹒跚阶段；(3)在智能体得到的当前奖励/>时，判定智能体处于酷跑阶段，其中v为常系数，可根据具体使用场景确定，本实施例中v＝0.5。假设三个经验缓冲池的总容量为C，静态优秀轨迹经验缓冲池、动态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池的容量分别为C₁,C₂,C₃,C₄，需满足C＝C₁+C₂+C₃+C₄。假设从经验缓冲池中采集的经验信息的数量为N，则设静态优秀轨迹经验缓冲池、动态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池和实时轨迹经验缓冲池中的采样数量分别为N₁,N₂,N₃,N₄，则需满足N＝N₁+N₂+N₃+N₄，N₁,N₂,N₃,N₄四个值随着训练次数增加而变化的函数，具体的设置可由式6、式7、式8和式9表示，式6、式7和式8中的b、c和d为常系数，可根据具体应用场景设定，在本实施例中b可设为0.3，c可设为0.3，d可设为0.3，在t＝T时，采样结束，程序终止。静态优秀轨迹经验缓冲池、动态优秀轨迹经验缓冲池只在学步阶段起到引导作用，碰撞轨迹经验缓冲池在学步阶段和蹒跚阶段都起作用，实时轨迹经验缓冲池在各个训练阶段都起作用，在酷跑阶段则由实时轨迹经验缓冲池单独作用，b、c和d的值可根据具体场景设定，本实施例对此不作限制。

N₄＝N-N₁-N₂-N₃ (式9)

本实施例通过获取目标区域内各智能体的当前位置和目标位置；根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线；根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置。由于本实施例是通过各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线，根据规划路线控制对应的智能体从对应的当前位置移动到目标位置，解决了现有技术中单个智能体输入数据维度过大而无法完成多智能体实时路径规划的技术问题，提高了多智能体实时路径规划的效率。

参考图5，图5为本发明多智能体局部交互路径规划方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述实时获取各智能体移动过程中的经验信息，并将所述经验信息添加至对应的经验缓冲池的步骤，包括：

步骤S021：根据局部交互策略实时获取各智能体移动过程中的经验信息。

应该理解的是，局部交互策略为目标区域中的各智能体只与预设范围的有限个智能体交互的策略，根据局部交互策略各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型的输入数据维度大大降低。

步骤S022：将所述经验信息添加至对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型的经验缓冲池。

可以理解的是，根据局部交互策略获取到各智能体在移动过程中的经验信息，将获得到的信息存储至对应智能体的经验缓冲池。

进一步地，为了减少各智能体数据输入的维度，提高模型训练和多智能体实时路径规划的效率，所述根据局部交互策略实时获取各智能体移动过程中的经验信息，包括：根据预设规则从所述各智能体中选取目标智能体；以所述目标智能体为中心，从所述目标区域中选取处于预设范围内的若干个智能体；根据所述目标智能体的参数和所述若干个智能体的参数确定所述目标智能体移动过程中的经验信息。

应该理解的是，预设规则为预先设定从目标区域选定目标智能体参与多智能体局部交互路径规划的规则，目标智能体可以是一个智能体、可以是多个智能体也可以是目标区域中的全部智能体，在目标智能体为多个智能体时，以第m个目标智能体为例进行说明，第m个目标智能体为中心，以预设半径确定预设范围，从预设范围中选取若干个智能体，根据第m个目标智能体和第m个目标智能体预设范围内的若干个智能体的参数确定第m个目标智能体移动过程中的经验信息，其余目标智能体移动过程中经验信息的确定过程与第m个智能体相同。

进一步地，为了提高初始模型的训练效率，所述根据所述目标智能体的参数和所述若干个智能体的参数确定所述目标智能体移动过程中的经验信息，包括：获取所述目标智能体与所述若干个智能体之间的距离；根据所述距离从所述若干个智能体中选取预设数量的智能体；根据所述目标智能体的参数和所述预设数量的智能体的参数确定所述目标智能体移动过程中的经验信息。

应该理解的是，距离可以通过在智能体上设置传感器、GPS定位装置或北斗定位装置确定，在获取到目标智能体与预设范围内的若干个智能体之间的距离后，可以将获得的距离按照从小到大排序，智能体的参数包括智能体的观测值。

可以理解的是，可以提前设定预设数量，例如将预设数量设置为3，则根据从小到大排序的距离，选取前三个距离对应的智能体，此时根据该目标智能体和3个距离该目标智能体距离最近的智能体的参数确定该目标智能体移动过程中的经验信息，假设目标智能体预设范围内只有2个智能体，则根据该目标智能体和2个距离该目标智能体距离最近的智能体的参数确定该目标智能体移动过程中的经验信息，在目标智能体预设范围内选取的智能体的数据根据实际情况确定。

在具体实现中，如图6所示为目标区域中各智能体所处的位置，此时将目标智能体设定为目标区域中的全部智能体，每个目标智能体可以检测的范围为以它自己为圆心以预设半径R为半径圆形区域，从图6可以看到，第一目标智能体1的预设范围内里只有第八智能体，第九目标智能体9的预设范围里只有第八智能体8和第十智能体10，在t时刻，第一目标智能体1的下一步动作只与它自己和第二智能体的观测值有关，而与其智能体的观测值无关。第九目标智能体9的下一步动作只与它自己、第八智能体8和第十智能体10的观测值有关，而与其他智能体的观测值无关，预设数量设置为3，假设在时刻，每个智能体的Critic网络的输入状态为其中/>表示第i个智能体自身的观测值，/>表示距离第i个目标智能体最近的智能体的观测值，/>和/>表示距离第i个目标智能体第2和第3近的智能体的观测值，也就是说智能体只关注它自身和在它视野范围内距离它最近的预设数量的Z个机器人的观测值，本实施例中Z＝3，还可以是其他值，本实施例对此不作限制，对于其它在第i个目标智能体视野内的机器人，第i个目标智能体与之通讯之后如果发现智能体的危险标志为“0”，不会给其他智能体造成危险，则无视该智能体；如果该智能体的危险标志为“1”，则控制该智能体停止运动，将其作为静止障碍物对待。

参考图7，如图7所示，在第一目标智能体智能体1的预设范围内里只有智能体2，不满足预设数量3，此时用第一目标智能体智能体1自身的观测值补充得到智能体1的Critic网络的输入状态第二目标智能体2的视野里有智能体1和4，智能体1与智能体2的距离小于智能体4与智能体2的距离，因此/>第三目标智能体3的视野里有智能体4、智能体5、智能体6和智能体7，智能体3与智能体5的距离最小，其次是智能体3与智能体4，之后是智能体3与智能体6，最后是智能体3与智能体7，因此/>如果智能体7的危险标志为“0”，则控制第三目标智能体3无视它的存在，如果智能体7的危险标志为“1”且第三目标智能体3的优先级大于智能体7的优先级，则控制智能体7停止运动，将其作为静止障碍物对待。

参考图8，图8是t时刻第一目标智能体1视野下的部分观测环境，在这里为了清楚的描述智能体之间的关系，省略了静态障碍物体，假设在第一目标智能体1的预设范围内，所有智能体的尺寸根据其半径扩展了1倍，这样第一目标智能体智能体1就可以化身为一个质点，此时静态障碍物的尺寸也需要根据智能体的半径进行扩展，通过第一目标智能体1的传感器进行检测，控制第一目标智能体1与它预设范围内里的其他智能体进行通信，可以得到如下重要信息：第一目标智能体1的坐标第一目标智能体1预设范围内其他智能体的坐标/>第一目标智能体1和它视野里其他机器人的运动方向；第一目标智能体1视野里其他智能体的危险标志，得到这些重要信息之后，可以控制第一目标智能体1进行处理，可以得到第一目标智能体它和其他智能体之间的距离并排序，还可以计算出第一目标智能体1和距离它最近的三个智能体运动方向的夹角(取逆时针方向为正)，之后，第一目标智能体1就可以得到它的观测值/>其中/>表示第一目标智能体1的安全标志，当第一目标智能体1与任何一个智能体的距离小于预设距离时，就给这两个智能体的危险标志都赋值为1，在第一目标智能体1和智能体5的通讯中，第一目标智能体1发现智能体5的危险标志为1，则控制发智能体5停止运动，如果智能体5的危险标志为0，则第一目标智能体1无视智能体5，第一目标智能体1无视智能体5的同时，智能体5可能是别的智能体最重视的对象，如果智能体5停止运动，其它智能体在计算与智能体5的运动夹角时，将运动夹角设置为0，通过以上方式可以确定各智能体移动过程中的目标区域中的第i个智能体的状态x_i，从而得到第i个智能体移动过程中的经验信息(x_i,a_i,r_i,x_i+1)。

本实施例获取所述目标智能体与所述若干个智能体之间的距离；根据所述距离从所述若干个智能体中选取预设数量的智能体；根据所述目标智能体的参数和所述预设数量的智能体的参数确定所述目标智能体移动过程中的经验信息。由于本实施例是通过目标智能体和处于目标智能体预设范围内的智能体的参数确定目标智能体移动过程中的经验信息，能够保持智能体价值网络输入数据维度的稳定，使得初始模型不会随着目标区域中智能体数量的增加而导致训练时间增加或训练失败，提高了初始模型的训练效率。

参照图9，图9为本发明多智能体局部交互路径规划装置第一实施例的结构框图。

如图9所示，本发明实施例提出的多智能体局部交互路径规划装置包括：获取模块10、确定模块20和控制模块30。

所述获取模块10，用于获取目标区域内各智能体的当前位置和目标位置；

所述确定模块20，用于根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线；

所述控制模块30，用于根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置。

本实施例通过获取模块10获取目标区域内各智能体的当前位置和目标位置；确定模块20根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线；控制模块30根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置。由于本实施例是通过各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线，根据规划路线控制对应的智能体从对应的当前位置移动到目标位置，解决了现有技术中单个智能体输入数据维度过大而无法完成多智能体实时路径规划的技术问题，提高了多智能体实时路径规划的效率。

基于本发明上述多智能体局部交互路径规划装置第一实施例，提出本发明多智能体局部交互路径规划装置的第二实施例。

在本实施例中，所述获取模块10，还用于根据当前动作策略和预设探索噪声通过各智能体对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型控制设定区域内的各智能体移动；实时获取各智能体移动过程中的经验信息，并将所述经验信息添加至对应的经验缓冲池；根据四阶梯采样机制实时控制各智能体从对应的经验缓冲池中采集训练经验信息；根据所述训练经验信息训练对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型，并在满足预设条件时，获得各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型。

所述获取模块10，还用于获取各智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定各智能体的训练阶段判断指标；根据前后步进关系奖励机制确定各智能体在移动过程中获得的当前奖励；根据所述各智能体的训练阶段判断指标、所述当前奖励和预设指标阈值判断各智能体处于的训练阶段，并根据所述训练阶段确定对应智能体在各经验缓冲池的采样比例；根据所述各智能体在各经验缓冲池的采样比例从各智能体对应的静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池中采集训练经验信息，其中所述经验缓冲池包括静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池。

所述获取模块10，还用于获取各智能体的静态优秀轨迹经验缓冲池的静态优秀轨迹平均奖励；在所述训练阶段判断指标小于预设指标阈值且所述当前奖励小于优秀轨迹平均奖励时，将第一预设比例作为对应的智能体处于学步阶段时在各经验缓冲池的采样比例；在所述训练阶段判断指标大于预设指标阈值时，将第二预设比例作为对应智能体处于蹒跚阶段时在各经验缓冲池的采样比例；在所述当前奖励大于优秀轨迹平均奖励时，将第三预设比例作为对应智能体处于酷跑阶段时在各经验缓冲池的采样比例。

所述获取模块10，还用于根据局部交互策略实时获取各智能体移动过程中的经验信息；将所述经验信息添加至对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型的经验缓冲池。

所述获取模块10，还用于根据预设规则从所述各智能体中选取目标智能体；以所述目标智能体为中心，从所述目标区域中选取处于预设范围内的若干个智能体；根据所述目标智能体的参数和所述若干个智能体的参数确定所述目标智能体移动过程中的经验信息。

所述获取模块10，还用于获取所述目标智能体与所述若干个智能体之间的距离；根据所述距离从所述若干个智能体中选取预设数量的智能体；根据所述目标智能体的参数和所述预设数量的智能体的参数确定所述目标智能体移动过程中的经验信息。

本发明多智能体局部交互路径规划装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多智能体局部交互路径规划方法，其特征在于，所述方法包括：

获取目标区域内各智能体的当前位置和目标位置；

根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线，在原有的DDPG算法的基础上新增四阶梯经验缓冲池和局部交互策略，得到初始的基于局部交互式多智能体四阶梯经验池的DDPG模型，对初始的基于局部交互式多智能体四阶梯经验池深度确定性策略梯度模型训练，在满足预设条件时，得到基于局部交互式多智能体四阶梯经验池的DDPG模型；

根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置；

所述获取目标区域内各智能体的当前位置和目标位置的步骤之前，所述方法还包括：

根据所述训练经验信息训练对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型，并在满足预设条件时，获得各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型；

所述经验缓冲池包括静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池，所述静态优秀轨迹经验缓冲池中存储的是通过智能算法规划好的优秀轨迹经验信息，所述动态优秀轨迹经验缓冲池中的轨迹经验信息中存储的是通过结合了避障策略的智能算法规划好的优秀轨迹经验信息，所述碰撞轨迹经验缓冲池中存储的是在智能体的运行过程中发生碰撞时的轨迹经验信息，所述实时轨迹经验缓冲池中存储的是智能体运动过程中实时的轨迹经验信息；

根据前后步进关系奖励机制确定各智能体在移动过程中获得的当前奖励，所述前后步进关系奖励机制是根据智能体当前位置与障碍物之间的关系和与当前位置相邻的前一位置与障碍物之间的关系，确定智能体在移动过程中的当前奖励的奖励确定机制；

根据所述各智能体在各经验缓冲池的采样比例从各智能体对应的静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池中采集训练经验信息；

所述根据所述各智能体的训练阶段判断指标、所述当前奖励和预设指标阈值判断各智能体处于的训练阶段，并根据所述训练阶段确定对应智能体在各经验缓冲池的采样比例，包括：

2.如权利要求1所述的方法，其特征在于，所述实时获取各智能体移动过程中的经验信息，并将所述经验信息添加至对应的经验缓冲池，包括：

3.如权利要求2所述的方法，其特征在于，所述根据局部交互策略实时获取各智能体移动过程中的经验信息，包括：

根据预设规则从所述各智能体中选取目标智能体；

4.如权利要求3所述的方法，其特征在于，所述根据所述目标智能体的参数和所述若干个智能体的参数确定所述目标智能体移动过程中的经验信息，包括：

获取所述目标智能体与所述若干个智能体之间的距离；

5.一种多智能体局部交互路径规划装置，其特征在于，所述装置包括：获取模块、确定模块和控制模块；

所述确定模块，用于根据各智能体的当前位置和目标位置通过各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型确定各智能体的规划路线，在原有的DDPG算法的基础上新增四阶梯经验缓冲池和局部交互策略，得到初始的基于局部交互式多智能体四阶梯经验池的DDPG模型，对初始的基于局部交互式多智能体四阶梯经验池深度确定性策略梯度模型训练，在满足预设条件时，得到基于局部交互式多智能体四阶梯经验池的DDPG模型；

所述控制模块，用于根据各智能体的路径规划路线控制对应的智能体移动至所述目标位置；

所述获取模块，还用于根据当前动作策略和预设探索噪声通过各智能体对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型控制设定区域内的各智能体移动；实时获取各智能体移动过程中的经验信息，并将所述经验信息添加至对应的经验缓冲池；根据四阶梯采样机制实时控制各智能体从对应的经验缓冲池中采集训练经验信息；根据所述训练经验信息训练对应的初始基于局部交互式多智能体四阶梯经验池的DDPG模型，并在满足预设条件时，获得各智能体对应的基于局部交互式多智能体四阶梯经验池的DDPG模型；

所述获取模块，还用于获取各智能体移动过程中预设次数的平均奖励，并根据所述平均奖励确定各智能体的训练阶段判断指标；根据前后步进关系奖励机制确定各智能体在移动过程中获得的当前奖励，所述前后步进关系奖励机制是根据智能体当前位置与障碍物之间的关系和与当前位置相邻的前一位置与障碍物之间的关系，确定智能体在移动过程中的当前奖励的奖励确定机制；根据所述各智能体的训练阶段判断指标、所述当前奖励和预设指标阈值判断各智能体处于的训练阶段，并根据所述训练阶段确定对应智能体在各经验缓冲池的采样比例；根据所述各智能体在各经验缓冲池的采样比例从各智能体对应的静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池中采集训练经验信息，其中所述经验缓冲池包括静态优秀轨迹经验缓冲池、碰撞轨迹经验缓冲池、动态优秀轨迹经验缓冲池和实时轨迹经验缓冲池，所述静态优秀轨迹经验缓冲池中存储的是通过智能算法规划好的优秀轨迹经验信息，所述动态优秀轨迹经验缓冲池中的轨迹经验信息中存储的是通过结合了避障策略的智能算法规划好的优秀轨迹经验信息，所述碰撞轨迹经验缓冲池中存储的是在智能体的运行过程中发生碰撞时的轨迹经验信息，所述实时轨迹经验缓冲池中存储的是智能体运动过程中实时的轨迹经验信息；

所述获取模块，还用于获取各智能体的静态优秀轨迹经验缓冲池的静态优秀轨迹平均奖励；在所述训练阶段判断指标小于预设指标阈值且所述当前奖励小于优秀轨迹平均奖励时，将第一预设比例作为对应的智能体处于学步阶段时在各经验缓冲池的采样比例；在所述训练阶段判断指标大于预设指标阈值时，将第二预设比例作为对应智能体处于蹒跚阶段时在各经验缓冲池的采样比例；在所述当前奖励大于优秀轨迹平均奖励时，将第三预设比例作为对应智能体处于酷跑阶段时在各经验缓冲池的采样比例。

6.一种多智能体局部交互路径规划设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多智能体局部交互路径规划程序，所述多智能体局部交互路径规划程序配置为实现如权利要求1至4中任一项所述的多智能体局部交互路径规划方法的步骤。

7.一种存储介质，其特征在于，所述存储介质上存储有多智能体局部交互路径规划程序，所述多智能体局部交互路径规划程序被处理器执行时实现如权利要求1至4任一项所述的多智能体局部交互路径规划方法的步骤。