CN116755329A

CN116755329A - 一种基于深度强化学习的多智能体的避险逃生方法及装置

Info

Publication number: CN116755329A
Application number: CN202310536736.XA
Authority: CN
Inventors: 宋智功; 李吉祥
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-09-15
Anticipated expiration: 2043-05-12
Also published as: CN116755329B

Abstract

本发明公开了一种基于深度强化学习的多智能体的避险逃生方法及装置，方法包括：进行智能体运动转换计算；初始化智能体状态空间和动作空间；设置强化学习奖励函数，设置训练神经网络，设置并行训练算法；使用近端策略优化算法，并且运用MPI并行训练模块对智能体进行并行训练；本发明解决了分布式框架中多个智能体避险逃生的问题，构建了仓库的模拟环境并且进行强化学习训练；面对突发情况时，使空间内智能体同时考虑避免障碍物、保持速度、保证安全和快速避险逃生等多个目标，并且做出最优决策；具有部署灵活、可适应性强、避障逃生效果更好以及控制系统的强鲁棒性等优点。

Description

一种基于深度强化学习的多智能体的避险逃生方法及装置

技术领域

本发明涉及的技术领域是机器人应用技术领域，尤其涉及一种基于深度强化学习的多智能体的避险逃生方法及装置。

背景技术

随着人口老龄化的加剧，劳动力的数量和质量也随之下降，这将对工厂的生产和运营产生影响。而无人工厂可以通过机器自动化和智能化生产，减少对人力的依赖，从而在一定程度上缓解劳动力短缺的问题。此外，无人工厂还可以提高生产效率，降低成本，增强企业竞争力，这些都可以对人口老龄化所带来的经济压力起到一定的缓解作用。

21世纪后，计算机技术和工业自动化高速发展，大部分无人工厂都采用多智能体协同工作以提升稳定性和工作效率，降低生产作业成本。随着工厂规模扩大，工作量增加，智能体的数量也增多，使用集中式方法控制智能体很难拓展到拥有大量智能体的大型系统上，而且在实际部署中，这种集中式方法极其依赖智能体端与中央服务器的稳定可靠的通信网络，一旦中央服务器发生故障，依赖集中式方法的多智能体系统就会崩溃。

此外，随着外界环境越来越复杂，传统的规划算法很难处理复杂环境的避障问题，比如需要连续避开多个动态障碍物，安全且快速的到达目标点。并且当外界发生突发情况时，环境可能会发生剧烈变化，传统算法无法及时适应这种变化，导致智能体无法快速做出反应进行逃生，可能会导致智能体在避障过程中出现卡顿或者碰撞等问题，危害财产安全。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述存在的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

第一方面，本发明实施例提供了一种基于深度强化学习的多智能体的避险逃生方法，包括：

进行智能体运动转换计算；

初始化智能体状态空间和动作空间；

设置强化学习奖励函数，设置训练神经网络，设置并行训练算法；

使用近端策略优化算法强化学习算法，并且运用MPI并行训练模块对智能体进行并行训练。

作为基于深度强化学习的多智能体的避险逃生方法的一种优选方案，其中：

所述进行智能体运动转换计算包括：考虑一个由N个智能体组成的多智能体系统，对于任意一个智能体，运动学模型可以描述为：

式中，P_i＝[p_i,x,p_i,y]^T和v_i＝[v_i,x,v_i,y]^T分别代表智能体i的位置和速度矢量；f_i(p_i,v_i)是一个与系统状态相关的未知非线性函数；u_i表示智能体i的控制输入；

定义运动目标的位置为P_t＝[p_t,x,p_t,y]^T，在惯性坐标系下，智能体i与目标之间的距离ρ_i和视线角θ_i可以表示为:

所述初始化智能体状态空间和动作空间包括：

状态空间的状态信息由距离感知数据以及智能体imu数据组成，具体的，是来自周围环境的距离信息、智能体的前进速度v和旋转速度ω，以及智能体到目标位置的x和y的相对距离，表示为：

其中，s_t ^dis是距离感知数据，通过智能体机载设备测量距离来显示障碍物与智能体之间的关系，通过三个连续时间步长上的距离数据来预测物体的运动方向和速度；是智能体与目标位置的相对距离，可以从/>提供的关于行动方向是否正确的信息中获取移动方向，/>提供智能体的速度信息，智能体的极限速度，惯性以及根据速度的避障方法可以根据/>进行分析。

所述初始化智能体状态空间和动作空间还包括：

将智能体的行为定义为连续行为，由二维信息前进速度v和旋转速度ω组成，表达如下：

a_t＝[v,ω]

其中v、ω为连续值，极限约束：v∈[0.00，v_max]、ω∈[ω_min，ω_max]。

所述设置强化学习奖励函数包括：

奖励函数由四个不同的奖励函数组合获得，设置如下：

R＝R_g+R_c+R_t+R_ω+R_v

向远离目标位置的方向移动将给予惩罚，而向接近目标位置的方向移动将给予奖励；

若智能体到达了目标位置，则得到奖励H；在向目标位置移动时，若到目标的距离比之前短，也会得到奖励，表示为：

其中，dis_pre表示智能体之前成功到达目标点的移动距离，dis_curr表示智能体当前到达目标点的移动距离；

当与障碍物发生碰撞时，R_c会施加惩罚P；表示为：

对于突发的紧急情况，智能体需要在最短的时间内进行逃生，因此每一步都会施加惩罚分数，以激励智能体做出正确快速的路径选择，t表示时间步长，表示为：

R_t＝-0.001t

R_ω对超过阈值的旋转速度施加惩罚，以防止出现因惯性而导致的难以控制的问题，表示为：

R_v对智能体的前进速度进行限制，以防止速度过快导致的惯性难以控制的问题，表示为：

使用奖励函数对智能体进行训练，每一轮训练的刷新条件由三种情况构成：智能体到达目标位置；智能体与障碍物发生碰撞；智能体时间步长超过设置的最大值。

所述设置训练神经网络包括：设计一个拥有4个隐藏层的神经网络来近似非线性函数，前三个隐藏层用来处理距离测量值，第一个隐藏层对32个一维滤波器进行卷积，覆盖三个输入扫描，并应用ReLU非线性函数；第二个隐藏层对32个一维滤波器进行卷积，同样采用ReLU非线性函数；第三个隐藏层是一个具有256个矫正单元的全连接层，第三层的输出与另外两个输入连接，输出的信息与机器人到目标位置的相对距离(x,y)以及智能体的速度(v,ω)一起通过一个全连接层；最后，输出一个高斯分布N(v^t _means,v^t _logstd)，其中v^t _means是速度的平均值，v^t _logstd是一组单独的参数，指的是高斯分布中的对数标准差；为了确保智能体的探索性，智能体最终的行为将从N(v^t _means,v^t _logstd)中进行采样。

所述使用PPO强化学习算法，并且运用MPI并行训练模块进行并行训练包括：用集中式学习，分布式执行的范式，其中学习的策略是通过场景下所有智能体收集到的数据进行学习；训练过程中，在MPI并行执行策略进行数据采样和使用采样数据更新策略之间交替进行。

第二方面，本发明实施例提供了一种基于深度强化学习的多智能体的避险逃生系统，其特征在于，包括：

运动转换模块，用于进行智能体运动转换计算；

初始化模块，用于初始化智能体状态空间和动作空间；

强化学习模块，用于设置强化学习奖励函数，设置训练神经网络，设置并行训练算法；

并行训练算法模块，用于使用近端策略优化算法强化学习算法，并且运用MPI并行训练模块对智能体进行并行训练。

第三方面，本发明实施例提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的基于深度强化学习的多智能体的避险逃生方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现所述的基于深度强化学习的多智能体的避险逃生方法。

本发明的有益效果：本发明解决了分布式框架中避免多个智能体碰撞的问题，构建了仓库的模拟环境并且进行强化学习训练；面对突发情况时，使空间内智能体同时考虑避免障碍物、保持速度、保证安全和快速避险逃生等多个目标，并且做出最优决策；具有部署灵活、可适应性强、避障逃生效果更好以及控制系统的强鲁棒性等优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1是本发明第一个实施例所述的基于深度强化学习的多智能体的避险逃生方法的整体流程图；

图2为本发明第二个实施例所述的基于深度强化学习的多智能体的避险逃生方法的仿真实例中差动驱动机器人的二维坐标表示。

图3为本发明第二个实施例所述的基于深度强化学习的多智能体的避险逃生方法的仿真实例中AGV防撞学习结构。

图4是本发明第二个实施例所述的基于深度强化学习的多智能体的避险逃生方法的仿真实例中训练使用的神经网络架构。

图5是本发明第二个实施例所述的基于深度强化学习的多智能体的避险逃生方法的仿真实例中stage的训练场景A。

图6是本发明第二个实施例所述的基于深度强化学习的多智能体的避险逃生方法的仿真实例中stage的训练场景B。

图7是本发明第二个实施例所述的基于深度强化学习的多智能体的避险逃生方法的仿真实例中stage模拟器简单场景训练的逃生成功率示意图；

图8是本发明第二个实施例所述的基于深度强化学习的多智能体的避险逃生方法的仿真实例中stage模拟器复杂场景训练的逃生成功率示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的第一个实施例，该实施例提供了一种基于深度强化学习的多智能体的避险逃生方法，包括：

S1：进行智能体运动转换计算；

具体的，所述进行智能体运动转换计算包括：考虑一个由N个智能体组成的多智能体系统，对于任意一个智能体，运动学模型可以描述为：

定义运动目标的位置为P_t＝[pt,x,p_t,y]^T，在惯性坐标系下，智能体i与目标之间的距离ρ_i和视线角θ_i可以表示为:

应说明的是，本发明所考虑的智能体可以涵盖一大类移动智能体，如AGV，四足机器狗等。

S2：初始化智能体状态空间和动作空间；

具体的，所述初始化智能体状态空间和动作空间包括：

其中，s_t ^dis是距离感知数据，通过智能体机载设备测量距离来显示障碍物与智能体之间的关系，通过三个连续时间步长上的距离数据来预测物体的运动方向和速度；是智能体与目标位置的相对距离，可以从/>提供的关于行动方向是否正确的信息中获取移动方向，/>提供智能体的速度信息，智能体的极限速度，惯性以及根据速度的避障方法可以根据s_t ^speed进行分析。

更进一步的，将智能体的行为定义为连续行为，由二维信息前进速度v和旋转速度ω组成，表达如下：

a_t＝[v,ω]

应说明的是，本发明中智能体不需要对相邻智能体和环境进行完美感知，只需要直接将原始传感器数据进行映射即可。更接近真实情况

S3：设置强化学习奖励函数，设置训练神经网络，设置并行训练算法；

具体的，所述设置强化学习奖励函数包括：

奖励函数由四个不同的奖励函数组合获得，设置如下：

R＝R_g+R_c+R_t+R_ω+R_v

当与障碍物发生碰撞时，R_c会施加惩罚P；表示为：

R_t＝-0.001t

更进一步的，所述设置训练神经网络包括：设计一个拥有4个隐藏层的神经网络来近似非线性函数，前三个隐藏层用来处理距离测量值，第一个隐藏层对32个一维滤波器进行卷积，覆盖三个输入扫描，并应用ReLU非线性函数；第二个隐藏层对32个一维滤波器进行卷积，同样采用ReLU非线性函数；第三个隐藏层是一个具有256个矫正单元的全连接层，第三层的输出与另外两个输入连接，输出的信息与机器人到目标位置的相对距离(x,y)以及智能体的速度(v,ω)一起通过一个全连接层；最后，输出一个高斯分布N(v^t _means,v^t _logstd)，其中v^t _means是速度的平均值，v^t _logstd是一组单独的参数，指的是高斯分布中的对数标准差；为了确保智能体的探索性，智能体最终的行为将从N(v^t _means,v^t _logstd)中进行采样。

应说明的是，奖励函数的设置可以根据具体智能体的不同进行相对应的调整。

S4：使用近端策略优化算法，并且运用MPI并行训练模块对智能体进行并行训练。

具体的，所述使用近端策略优化算法，并且运用MPI并行训练模块进行并行训练包括：用集中式学习，分布式执行的范式，其中学习的策略是通过场景下所有智能体收集到的数据进行学习；训练过程中，在MPI并行执行策略进行数据采样和使用采样数据更新策略之间交替进行。

应说明的是，采用并行训练的近端策略优化算法可以很容易地扩展到由数百个智能体以分散方式组成的大型多智能体系统上。

实施例2

参照图2-图8，为本发明的一个实施例，提供了一种基于深度强化学习的多智能体的避险逃生方法，为了验证本发明的有益效果，以AGV为例通过仿真实验进行科学论证。

S1：进行机器人运动转换计算；

具体的，所述进行机器人运动转换计算包括：机器人的运动学由二维坐标(x，y)表示，偏航角ψ表示机器人两个轮子的中心绕X轴的行走角度，偏航角速度ψ由偏航角ψ求导可得；左轮和右轮的速度分别为v_L和v_R。

机器人的速度为：

v＝(v_L+v_R)/2

偏航角速度为：

其中W为轮距。

从机器人的速度和偏航角速度中得到电机转速ω_R和ω_L，设没有滑移，则

电机转速，前进速度和偏航角速度关系可表示为：

其中R是驱动轮的半径；

根据全局坐标的运动方程将线速度v和偏航角速度转换为机器人左、右电机的转速；

所述全局坐标的运动方程为：

其中，分别表示机器人在X轴移动速度，Y轴移动速度以及偏航角速度。

S2：初始化机器人状态空间和动作空间；

具体的，所述初始化机器人状态空间和动作空间包括：

状态空间的状态信息由激光雷达数据组成，具体的，是来自周围环境的距离信息、机器人的向前速度v和旋转速度ω，以及机器人到目标位置的x和y的相对距离，表示为：

其中，s_t ^lidar是激光雷达数据，通过测量距离来显示障碍物与机器人之间的关系，通过三个连续时间步长上的激光雷达数据来预测物体的运动方向和速是机器人与目标位置的相对距离，可以从/>提供的关于行动方向是否正确的信息中获取移动方向，提供机器人的速度信息，机器人的极限速度，惯性以及根据速度的避障方法可以根据进行分析。

更进一步的，将机器人的行为定义为连续行为，由二维信息前进速度v和旋转速度ω组成，表达如下：

a_t＝[v，ω]

其中v、ω为连续值，极限约束：v∈[0.00，0.55]、ω∈[-0.60，0.60]。

应说明的是，在传统的机器人控制中，机器人的行为通常被定义为离散的动作序列，这种方法虽然简单易用，但是对机器人的行为控制和规划能力提出较高要求，因为机器人必须根据不同的动作序列进行切换组合，以实现更复杂的任务。在本发明中将移动机器人的行为定义为连续行为，让移动机器人在移动过程中更加精细地控制其速度与方向，以实现平稳移动和各种方式的避让。

具体的，所述设置强化学习奖励函数包括：

奖励函数由四个不同的奖励函数组合获得，设置如下：

R＝R_g+R_c+R_t+R_ω+R_v

若机器人到达了目标位置，则得到15分的大额奖励；在向目标位置移动时，若到目标的距离比之前短，也会得到奖励，表示为：

其中，dis_pre表示机器人之前成功到达目标点的移动距离，dis_curr表示机器人当前到达目标点的移动距离；

当与障碍物发生碰撞时，R_c会施加一个很大的惩罚：-15分；表示为：

对于突发的紧急情况，机器人需要在最短的时间内进行逃生，因此每一步都会施加惩罚分数，以激励机器人做出正确快速的路径选择，t表示时间步长，表示为：

R_t＝-0.001t

R_ω对超过阈值的旋转速度施加了很大的惩罚，以防止出现因为惯性而导致的难以控制的问题，表示为：

使用奖励函数对机器人进行训练，每一轮训练的刷新条件由三种情况构成：机器人到达目标位置；机器人与障碍物发生碰撞；机器人步数超过2000步。

更进一步的，所述设置训练神经网络包括：设计一个拥有4个隐藏层的神经网络来近似非线性函数，前三个隐藏层用来处理激光测量值，第一个隐藏层对32个一维滤波器进行卷积，覆盖三个输入扫描，并应用ReLU非线性函数；第二个隐藏层对32个一维滤波器进行卷积，同样采用ReLU非线性函数；第三个隐藏层是一个具有256个矫正单元的全连接层，第三层的输出与另外两个输入连接，输出的信息与机器人到目标位置的相对距离(x，y)以及机器人的速度(v，ω)一起通过一个全连接层；最后，输出一个高斯分布其中/>是速度的平均值，/>是一组单独的参数，指的是高斯分布中的对数标准差。为了确保机器人的探索性，机器人最终的行为将从/>中进行采样。

S4：使用PPO强化学习算法，并且运用MPI并行训练模块进行并行训练。

具体的，所述使用PPO强化学习算法，并且运用MPI并行训练模块进行并行训练包括：用集中式学习，分布式执行的范式，其中学习的策略是通过场景下所有机器人收集到的数据进行学习；训练过程中，在MPI并行执行策略进行数据采样和使用采样数据更新策略之间交替进行；通过不断迭代训练过程，神经网络会逐渐调整自己的权重和偏置，以最小化损失函数并提高机器人性能。最终，得到一个训练有素的神经网络模型，用于帮助机器人在逃生场景中做出最优的决策。

应说明的是，这种并行PPO算法可以很容易地扩展到由数百个机器人以分散方式组成的大型多机器人系统，每个机器人都是收集数据的独立单元；分散执行不仅大大降低了采样的时间成本，也使该算法适用于各种场景下的大量机器人训练。

具体的，使用ros的stage模拟器建造仓储逃生环境，包含障碍物，墙壁，以及24辆AGV。AGV的尺寸为0.4m*0.36m，仓库场景的大小为40m*40m。首先将机器人随机初始化在一个36m*16m的矩形区域内，将AGV的目标点设置在出口外6m*8m的矩形区域内。训练过程为：

1.场景中每一个agent对当前环境进行感知得到各自的状态输入，包括雷达扫描的激光测量值，相对目标位置和当前速度，将以上状态输入到训练神经网络中。

2.动作空间的输出包括前进速度v和旋转速度ω，考虑到真实机器人的运动学和现实世界的应用，将v∈[0.00，0.55]、ω∈[-0.60，0.60]。注意，不允许向后移动(即v<0.0)，因为激光测距仪无法覆盖机器人的后部区域。

3.训练算法采用PPO算法(Proximal Policy Optimization)，将AGV传递的状态信息作为输入，结合设置的奖励函数，自主学习逃生避障的最佳策略，并且获得尽可能大额的奖励值，算法网络将动作输出传递回AGV，AGV执行策略后收集新的状态信息，不停与环境交互，循环往复，最终得到策略模型。

4.训练参数设置如下：

MAX_EPISODES＝5000

LASER_BEAM＝512

LASER_HIST＝3

HORIZON＝128

GAMMA＝0.99

LAMDA＝0.95

BATCH_SIZE＝512

EPOCH＝4

COEFF_ENTROPY＝5e-4

CLIP_VALUE＝0.1

NUM_ENV＝24

OBS_SIZE＝512

ACT_SIZE＝2

LEARNING_RATE＝5e-5

5.经过上述场景训练20000个Episode后，将策略保存，将其转入到更复杂，更丰富的场景中再进行训练，将MAX_EPISODES改为8000生成最终的策略。

可以看出，本发明所设计的控制方法与传统的控制方法相比，具有更好的逃生效果、更好的动态性能、静态性能和抗外界干扰能力。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度强化学习的多智能体的避险逃生方法，其特征在于，包括：

进行智能体运动转换计算；

初始化智能体状态空间和动作空间；

使用近端策略优化算法(ppo)，并且运用MPI并行训练模块对智能体进行并行训练。

2.如权利要求1所述的基于深度强化学习的多智能体的避险逃生方法，其特征在于，所述进行智能体运动转换计算包括：考虑一个由N个智能体组成的多智能体系统，对于任意一个智能体，运动学模型可以描述为：

3.如权利要求1或2所述的基于深度强化学习的多智能体的避险逃生方法，其特征在于，所述初始化智能体状态空间和动作空间包括：

其中，s_t ^dis是距离感知数据，通过智能体机载设备测量距离来显示障碍物与智能体之间的关系，通过三个连续时间步长上的距离数据来预测物体的运动方向和速度；s_t ^goal是智能体与目标位置的相对距离，可以从s_t ^goal提供的关于行动方向是否正确的信息中获取移动方向，s_t ^speed提供智能体的速度信息，智能体的极限速度，惯性以及根据速度的避障方法可以根据s_t ^speed进行分析。

4.如权利要求3所述的基于深度强化学习的多智能体的避险逃生方法，其特征在于，所述初始化智能体状态空间和动作空间还包括：

a_t＝[v,ω]

5.如权利要求4所述的基于深度强化学习的多智能体的避险逃生方法，其特征在于，所述设置强化学习奖励函数包括：

奖励函数由四个不同的奖励函数组合获得，设置如下：

R＝R_g+R_c+R_t+R_ω+R_v

当与障碍物发生碰撞时，R_c会施加惩罚P；表示为：

R_t＝-0.001t

6.如权利要求5所述的基于深度强化学习的多智能体的避险逃生方法，其特征在于，所述设置训练神经网络包括：设计一个拥有4个隐藏层的神经网络来近似非线性函数，前三个隐藏层用来处理距离测量值，第一个隐藏层对32个一维滤波器进行卷积，覆盖三个输入扫描，并应用ReLU非线性函数；第二个隐藏层对32个一维滤波器进行卷积，同样采用ReLU非线性函数；第三个隐藏层是一个具有256个矫正单元的全连接层，第三层的输出与另外两个输入连接，输出的信息与机器人到目标位置的相对距离(x,y)以及智能体的速度(v,ω)一起通过一个全连接层；最后，输出一个高斯分布N(v^t _means,v^t _logstd)，其中v^t _means是速度的平均值，v^t _logstd是一组单独的参数，指的是高斯分布中的对数标准差；为了确保智能体的探索性，智能体最终的行为将从N(v^t _means,v^t _logstd)中进行采样。

7.如权利要求6所述的基于深度强化学习的多智能体的避险逃生方法，其特征在于，所述使用PPO强化学习算法，并且运用MPI并行训练模块进行并行训练包括：用集中式学习，分布式执行的范式，其中学习的策略是通过场景下所有智能体收集到的数据进行学习；训练过程中，在MPI并行执行策略进行数据采样和使用采样数据更新策略之间交替进行。

8.一种基于深度强化学习的多智能体的避险逃生系统，其特征在于，包括：

运动转换模块，用于进行智能体运动转换计算；

初始化模块，用于初始化智能体状态空间和动作空间；

并行训练算法模块，用于使用近端策略优化算法，并且运用MPI并行训练模块对智能体进行并行训练。

9.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述基于深度强化学习的多智能体的避险逃生方法的步骤。

10.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述基于深度强化学习的多智能体的避险逃生方法的步骤。