CN110968102A

CN110968102A - 一种基于深度强化学习的多agent避碰方法

Info

Publication number: CN110968102A
Application number: CN201911375159.0A
Authority: CN
Inventors: 孙立博; 秦文虎; 翟金凤
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-04-07
Anticipated expiration: 2039-12-27
Also published as: CN110968102B

Abstract

本发明公开一种基于深度强化学习的多agent避碰方法，首先，对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达；然后，确定深度强化学习架构；最后采用基于近端策略优化的深度强化学习方法同时对多个场景进行训练，从而获取最优控制策略，使得agent能够成功躲避静态和动态障碍物，顺利到达目标点。本发明提不仅具有较好的逼真性和较强的通用性，还具有良好的扩展性，更大大提高了训练效率，缩短了训练时间；解决了传统的强化学习方法应用于避碰中状态和动作空间必须离散的问题，提高了传统深度学习方法的训练效率。

Description

一种基于深度强化学习的多agent避碰方法

技术领域

本发明属于虚拟现实及人工智能领域，具体涉及一种基于深度强化学习的多agent避碰方法。

背景技术

路径规划是人类基本的行为能力之一，是保证人类在现实生活中不与其他障碍物和个体发生碰撞，更好地向目标前进的关键。在虚拟人群仿真研究中，也应该体现这一基本行为特性，使得agent能够按照自然合理的路径运动，顺利到达目标位置。而真实有效地模拟路径规划行为，尤其是多agent的避碰行为，不仅能够提高agent的智能性，还能够为更高层的虚拟人群行为仿真提供基础。

基于人工势场法、速度障碍物方法、栅格的规则等传统的多agent避碰算法虽然对环境未知或者部分未知的情况具有较好的适应性，但是不能保证各agent顺利到达目标点，而且，若想获得很好的避碰效果，需要进行大量的参数调节；而基于强化学习的多agent避碰算法大多要求状态和动作空间必须离散，在规划路径的真实性方面还有待进一步提高，因此，本发明从提高规划路径的真实性和训练效率的角度出发，研究基于深度强化学习的多agent避碰算法。通过本发明的研究，不仅能够为多agent找出从起始点到目标点的无碰撞的路径，而且无需对环境进行建模，还使得学习到的避碰策略能够广泛应用到更多场景成为可能。综上所述，研究基于深度强化学习的多agent避碰算法具有重要的理论意义和工程应用价值。

发明内容

发明目的：本发明提供一种基于深度强化学习的多agent避碰方法，能够克服具有连续状态和动作空间的多agent强化学习所存在的维数灾难以及多agent深度强化学习训练时间长的问题，使得学习到的避碰策略能够广泛应用到更多场景。

技术方案：本发明所述的一种基于深度强化学习的多agent避碰方法，包括以下步骤：

(1)在每一场景中，对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达；

(2)确定深度强化学习架构，该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入，agent的动作作为输出；

(3)采用近端策略优化方法同时对多个场景进行训练，调整网络参数，获取共享策略，训练完成后，即可得到一条从起始点到目标点的无碰撞的路径。

进一步地，所述步骤(1)包括以下步骤：

(11)设定agent可感知的最大视距为a米，最大视角为b度，其中，0<a≤5，b≤220；具体描述为：以agent当前位置为参考，向前延伸c米，最大视角为以聚焦方向为对称轴，和两侧的夹角分别为b/2度；

(12)在感知范围内向不同方向发射射线进行采样，地形平坦无障碍物处采样为0，有障碍物处采样为1，将静态障碍物的状态表示为绝对位置p_static，将动态障碍物的状态表示为绝对位置p_dynamic和运动速度v_dynamic；

(13)将agent的当前状态表征为C(p_c,θ_c)，其中，p_c为agent当前状态下的位置，θ_c为agent当前状态下的朝向；将起始点信息表征为p_s，即起始点的位置；将目标点信息表征为p_tar，即目标点的位置；将agent的动作表征为A(ρ_a,θ_a)，其中，ρ_a为agent的平移速度，θ_a为旋转速度；

(14)奖励函数设计如下：

R＝r_goal+r_approach-(r_{c_static}+r_{c_dynamic}+r_{c_agents}+r_time)

其中，r_goal为到达目标点所给奖励，r_approach为进一步接近目标点所给奖励，r_{c_static}为agent与静态障碍物碰撞所给惩罚，r_{c_dynamic}为agent与动态障碍物碰撞所给惩罚，r_{c_agents}为agent之间发生碰撞所给惩罚，r_time为agent到达目标点花费时间太多时所给惩罚。

进一步地，所述步骤(2)包括以下步骤：

(21)分别为近端策略优化算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络，该网络由若干卷积层和全连接层组成；

(22)agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量，然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层，最后经过一层线性变换输出agent的动作分布，值函数输出层为单一的线性单元。

进一步地，所述步骤(3)包括以下步骤：

(31)对于每一个agent，采用同一策略π_θ同时训练T时间步，以获取π_θ{s_t,a_t,r_t}；采用广义优势估计算法估计优势

(32)采用随机梯度下降方法更新策略，即最大化

更新θ；

(33)采用时序差分方法更新值函数，即最小化

更新φ；

(34)重复步骤(31)至步骤(32)，直到迭代达到最大步数或损失值小于给定阈值。

有益效果：与现有技术相比，本发明的有益效果为：1、本发明不受应用场景和环境因素的限制，无需对环境进行建模即可为多agent的高层行为仿真提供技术手段，具有较强的通用性；2、解决了传统的强化学习在求解具有连续状态和动作空间的多agent避碰所出现的维数灾难问题，通过对多个场景同时训练，提高了训练的效率；3、通过训练共享策略使得该避碰策略可以广泛应用到更多场景，因此具有较好的可扩展性。

附图说明

图1为本发明的示意图；

图2为本发明对agent可感知区域的环境信息和agent状态的示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。如图1所示，本发明具体包括以下步骤：

1、在每一场景中，对agent可感知区域的环境状态、agent状态、起始点信息、目标点信息、动作和奖励进行表达。

如图2所示，设定agent可感知的最大视距为a米，最大视角为b度，其中，0<a≤5，b≤220；具体描述为，以agent当前位置为参考，向前延伸c米，最大视角为以聚焦方向为对称轴，和两侧的夹角分别为b/2度。此处设定agent可感知的最大视距为4m，最大视角为180度，具体描述为，以agent当前位置为参考，向前延伸4米，最大视角为以聚焦方向为对称轴，和两侧的夹角分别为90°。

在感知范围内向不同方向发射射线进行采样，地形平坦无障碍物处采样为0，有障碍物处采样为1，将静态障碍物的状态表示为绝对位置p_static，将动态障碍物的状态表示为绝对位置p_dynamic和运动速度v_dynamic。

将agent的当前状态表征为C(p_c,θ_c)，其中，p_c为agent当前状态下的位置，θ_c为agent当前状态下的朝向；将起始点信息表征为p_s，即起始点的位置；将目标点信息表征为p_tar，即目标点的位置；将agent的动作表征为A(ρ_a,θ_a)，其中，ρ_a为agent的平移速度，θ_a为旋转速度。

设计奖励函数如下：

R＝r_goal+r_approach-(r_{c_static}+r_{c_dynamic}+r_{c_agents}+r_time)

2、确定深度强化学习架构，该架构以agent的当前状态、可感知区域的虚拟环境状态和目标点信息作为输入，agent的动作作为输出；

分别为近端策略优化(Proximal PolicyOptimization，PPO)算法中的Actor和Critic构建结构相同的包括m层的深度卷积神经网络，该网络由若干卷积层和全连接层组成。

agent可感知区域的虚拟环境状态首先通过一系列的卷积以及一个全连接层获得一个中间特征向量，然后结合agent的当前状态以及目标点信息再通过两层包含LSTM单元的隐藏层，最后经过一层线性变换输出agent的动作分布，值函数输出层为单一的线性单元。

3、采用PPO方法同时对多个场景进行训练，调整网络参数，获取共享策略，训练完成后，即可得到一条从起始点到目标点的无碰撞的路径。

(1)对于每一个agent，采用同一策略π_θ同时训练T时间步，以获取π_θ{s_t,a_t,r_t}；采用GAE(GeneralizedAdvantage Estimation，广义优势估计)估计优势

(2)采用随机梯度下降方法更新策略，即最大化

更新θ。

(3)采用时序差分方法更新值函数，即最小化

更新φ。

重复步骤(1)至步骤(3)，直到迭代达到最大步数或损失值小于给定阈值。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的多agent避碰方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法，其特征在于，所述步骤(1)包括以下步骤：

(11)设定agent可感知的最大视距为a米，最大视角为b度，其中，0＜a≤5，b≤220；具体描述为：以agent当前位置为参考，向前延伸c米，最大视角为以聚焦方向为对称轴，和两侧的夹角分别为b/2度；

(13)将agent的当前状态表征为C(p_c，θ_c)，其中，p_c为agent当前状态下的位置，θ_c为agent当前状态下的朝向；将起始点信息表征为p_s，即起始点的位置；将目标点信息表征为p_tar，即目标点的位置；将agent的动作表征为A(ρ_a，θ_a)，其中，ρ_a为agent的平移速度，θ_a为旋转速度；

(14)奖励函数设计如下：

R＝r_goal+r_approach-(r_{c_static}+r_{c_dynamic}+r_{c_agents}+r_time)

其中，r_goal为到达目标点所给奖励，r_approach为进一步接近目标点所给奖励，r_{c_xtatic}为agent与静态障碍物碰撞所给惩罚，r_{c_dynamic}为agent与动态障碍物碰撞所给惩罚，r_{c_agents}为agent之间发生碰撞所给惩罚，r_time为agent到达目标点花费时间太多时所给惩罚。

3.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法，其特征在于，所述步骤(2)包括以下步骤：

4.根据权利要求1所述的一种基于深度强化学习的多agent避碰方法，其特征在于，所述步骤(3)包括以下步骤：

(32)采用随机梯度下降方法更新策略，即最大化

更新θ；

(33)采用时序差分方法更新值函数，即最小化

更新φ；