CN114548497A

CN114548497A - 一种实现场景自适应的人群运动路径规划方法及系统

Info

Publication number: CN114548497A
Application number: CN202210038482.4A
Authority: CN
Inventors: 蔡秀花; 张政; 陆佃杰; 张桂娟
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-05-27
Anticipated expiration: 2042-01-13
Also published as: CN114548497B

Abstract

本公开提出了一种实现场景自适应的人群运动路径规划方法及系统，将获取的场景信息以及人群信息输入至训练好的多智能体深度强化学习框架模型进行人群运动规划路径；所述多智能体深度强化学习框架模型中以每个人作为一个智能体，包括顶层规划模型和底层规划模型；顶层规划模型每个智能体以距离最近的出口作为疏散目标，利用深度确定性策略梯度算法规划，得到全局规划路径；底层规划模型以顶层规划模型的输出为状态值，以避免碰撞为目标进行局部规划，修正全局规划路径得到人群运动规划路径。采用MADDPG算法，将全局路径规划和局部避免碰撞分开处理，并使用多智能体深度强化学习方法以适应于场景的变化，规划出更为合理的人群运动路径。

Description

一种实现场景自适应的人群运动路径规划方法及系统

技术领域

本公开涉及人群运动路径规划相关技术领域，具体的说，是涉及一种实现场景自适应的人群运动路径规划方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。

随着科技和经济的不断发展、公共建筑和设施的不断增多，在地铁站、机场、医院等公共区域内的人流量也更加密集。当发生紧急情况时，如火灾、地震等，由于应急方案存在一定缺陷，导致人群拥挤、踩踏的意外情况时有发生。因此，发生灾难时，规划人群在公共场所内真实的运动路径有助于提前规避风险，保障人民生命财产安全。

在人群运动路径规划中，通常对规划方法的灵活性和真实性要求较高。发明人发现，传统人群路径规划方法往往使用预先定义的场景和规则，降低了人群运动的真实度。基于数据驱动的路径规划方法常被用来增强人群路径规划的真实度。然而，基于数据驱动的方法通常从特定场景中提取人群运动数据，并将训练好的模型应用到同一场景，当场景中障碍物数量或位置发生变化时，基于数据驱动的方法不能适应场景的变化，产生无碰撞路径，灵活性较低。

发明内容

本公开为了解决上述问题，提出了一种实现场景自适应的人群运动路径规划方法及系统，采用MADDPG(Multi-Agent Deep Deterministic Policy Gradient，多智能体深度确定性策略梯度)算法，将全局路径规划和局部避免碰撞分开处理，并使用多智能体深度强化学习方法以适应于场景的变化，规划出更为合理的人群运动路径。

为了实现上述目的，本公开采用如下技术方案：

一个或多个实施例提供了一种实现场景自适应的人群运动路径规划方法，包括如下步骤：

获取场景信息以及人群参数信息；

将获取的信息输入至训练好的多智能体深度强化学习框架模型，得到人群运动规划路径；

所述多智能体深度强化学习框架模型中以每个人作为一个智能体，包括顶层规划模型和底层规划模型；顶层规划模型每个智能体以距离最近的出口作为疏散目标，利用深度确定性策略梯度算法进行全局路径规划，得到智能体的全局规划路径；底层规划模型以顶层规划模型的输出为状态值，以避免碰撞为目标进行局部规划，修正全局规划路径得到人群运动规划路径。

一个或多个实施例提供了一种实现场景自适应的人群运动路径规划系统，包括：

获取模块，被配置为用于获取场景信息以及人群参数信息；

规划模块，被配置为用于将获取的信息输入至训练好的多智能体深度强化学习框架模型，得到人群运动规划路径；

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

与现有技术相比，本公开的有益效果为：

本公开将全局路径规划和局部避免碰撞分开处理，并使用多智能体深度强化学习方法以适应于场景的变化，规划出更为合理的人群运动路径。基于多级的深度强化学习框架并应用到人群运动模拟中，分别处理路径规划和碰撞避免，提高了方法的泛化性、灵活性。

本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。

图1是本公开实施例1所述的人群运动路径规划方法流程图；

图2是本公开实施例1的模拟双出口的简单仿真场景的人群疏散场景仿真模型；

图3是对图2的场景进行人群运动路径规划的疏散效果图；

图4是本公开实施例1的模拟四出口的复杂仿真场景的人群疏散场景仿真模型；

图5是对图4的场景进行人群运动路径规划的疏散效果图；

图6是本公开实施例1中底层规划的网络训练示例。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式公开的技术方案中，如图1所示，一种实现场景自适应的人群运动路径规划方法，包括如下步骤：

步骤1、获取场景信息以及人群参数信息；

步骤2、将获取的信息输入至训练好的多智能体深度强化学习框架模型，得到人群运动规划路径；

所述多智能体深度强化学习框架模型中以每个人作为一个智能体，包括顶层规划模型和底层规划模型；顶层规划模型以每个智能体以距离最近的出口作为疏散目标，利用深度确定性策略梯度算法进行全局路径规划，得到智能体的目标位置；底层规划模型以顶层规划模型的输出为状态值，以避免碰撞为目标进行局部规划，得到人群运动规划路径。

本实施例将全局路径规划和局部避免碰撞分开处理，并使用多智能体深度强化学习方法以适应于场景的变化，规划出更为合理的人群运动路径。基于两级的深度强化学习框架并应用到人群运动模拟中，分别处理路径规划和碰撞避免，将深度强化学习方法分别应用于两级规划，提高了方法的泛化性、灵活性。

其中，场景信息可以包括：疏散出口的数量、位置和大小，障碍物的数量、位置、大小和形状。

人群参数信息可以包括：人群的位置、速度(统一设为0)、目标出口位置其中，目标出口位置可以为距离当前智能体最近的出口。

将获取的信息输入至训练好的多智能体深度强化学习框架模型，得到人群运动规划路径的方法，包括如下步骤：

步骤21、根据获取的场景信息以及人群参数信息，进行多智能体深度强化学习框架模型即为疏散场景仿真模型内的参数的初始化设置；

疏散场景仿真模型是包括顶层和底层规划的多智能体深度强化学习框架模型，具体的初始化场景设置，包括场景建筑物、道路、建筑出口、人群位置等。如图2和图4所示，分别是双出口与四个出口的仿真场景。

步骤22、利用深度确定性策略梯度算法对单个智能体进行路径规划，使得智能体的移动路径指向目标出口，得到全局规划路径；

其中，所述全局规划路径包括所有智能体的每一时刻的目标位置，以及由所有时刻对应的位置形成的智能体移动路径。

步骤23、以使智能体避免与其他智能体发生碰撞为目标，采用RVO(相对速度障碍)算法融合多智能体深度确定性策略梯度算法进行规划，对全局规划路径进行修正，得到最终的人群运动规划路径。

本实施例中，融合了相对速度障碍算法，能够提高提高计算无碰撞速度的效率。

进一步的，顶层规划模型将人群中的每一个个体视为智能体，利用深度确定性策略梯度算法进行全局路径规划，将这一过程称为顶层规划即上面的步骤22，在进行顶层规划之前需要对模型进行训练，顶层规划模型的训练过程，包括如下步骤：

步骤A1:根据获取的场景信息以及人群参数信息，设定顶层规划模型智能体的状态和动作空间；

顶层规划模型中，智能体的状态可以包括智能体的位置、速度、目标位置、障碍物距离；动作空间可以具体为智能体位置坐标变换的二维的连续空间。

具体的，智能体自身在二维坐标中的位置O，可以用水平坐标和垂直坐标即(o_x,o_y)来表示。智能体自身当前时刻的速度矢量V，可以用水平速度和垂直速度即(v_x,v_y)来表示。总体目标所在的位置L，用水平坐标和垂直坐标即(l_x,l_y)来表示。当前时刻智能体与周围障碍物的距离，由20维的向量组成，用D(d₁,d₂,...,d₂₀)来表示，综合上述分析，顶层规划中智能体在时刻t的状态定义为

对于动作空间来说，本实施例中，可以考虑的动作策略为在每个时间步给予智能体的下一坐标点，所以顶层规划的动作空间为一个二维的连续空间，在t时刻智能体的动作定义为：

v_x,v_y分别表示当前智能体的水平速度和垂直速度。

步骤A2:从获取的真实视频中提取行人的运动属性；

其中，所述运动属性包括智能体每一时刻的纵坐标位置、横坐标位置、纵坐标速度和横坐标速度；

其中，对于视频中单个行人的行走轨迹，用状态集合S来表示：

其中，下标n表示帧的个数，

表示行人在第i帧的坐标位置，

分别表示行人在第i帧的水平速度和垂直速度。

步骤A3:设定轨迹匹配器用于提取智能体的状态；

定义一个函数ψ提取智能体状态s_Top中的部分特征：ψ(s_Top)＝(o_x,o_y,v_x,v_y)，获取了智能体状态s_Top中部分特征后，定义一个轨迹匹配器K(s_Top)∈S。s_Top即为智能体某一时刻的状态。

步骤A4:设定顶层规划的智能体的奖励函数，激励智能体做出预期动作；

设定顶层规划的智能体的奖励函数，以激励智能体做出预期动作；奖励函数为：当智能体与障碍物碰撞，奖励值为负数；当智能体到达总体目标位置奖励值为正数；智能体下一时刻比当前时刻更接近总体目标位置，奖励为正奖励，否则为负奖励。总体目标位置即为最终要到达的目标位置。

具体的，奖励函数为：

其中，obs_min为智能体与障碍物的最小距离，如果小于零，说明发生了碰撞，此时受到一个负奖励-1。O代表智能体位置，L代表总体目标位置，当智能体到达目标时，会受到一个正奖励1。e₁,e₂为距离函数和相似度函数的权重，且e₁+e₂＝1。dis()函数表示智能体位置与总体目标之间的相对距离。求出当前时刻与总体目标的距离和下一时刻与目标的距离，并做差值，如果为正值说明个体更加接近目标点，受到一个正奖励，反之则为负奖励。sim(s_Top)函数计算智能体与真实行人状态的相似度。

步骤A5:每个智能体对应一个Actor网络与一个Critic网络，分别负责策略估计和价值估计，采用深度确定性策略梯度算法训练Critic网络和Actor网络的模型参数，根据设定迭代次数进行迭代训练，如进行N个回合重复训练，以智能体获取的回报值最大为目标，直至训练出每个智能体的奖励值收敛，得到最终的模型参数；

进一步地，底层规划模型将模拟人群中的每一个个体视为智能体，利用多智能体深度确定性策略梯度算法进行局部碰撞避免，将这一过程称为底层规划即上面的步骤23，在进行底层规划之前需要对模型进行训练，底层规划模型的训练过程，包括如下步骤：

步骤B1：接收顶层规划模型传输的智能体下一时刻的目标位置，并将其作为底层规划智能体的观测值；

步骤B2：设定底层规划智能体的观测和动作空间；

底层规划模型智能体的观测和动作空间，具体为：

其中，

表示当前智能体的水平位置坐标和垂直位置坐标。

表示智能体的水平速度和垂直速度；

表示目标位置，

表示当前智能体相对于目标的水平距离和垂直距离，

表示当前智能体相对于第K个智能体的水平速度和垂直速度；

表示当前智能体相对于第K个智能体的水平距离和垂直距离。

在t时刻的智能体i联合状态x为：

即第i个智能体的观测空间和周围K个邻居智能体观测空间的集合。

每个智能体t时刻的动作为：

表示下一时间步智能体的水平速度和垂直速度。

步骤B3：设定底层规划模型的智能体的奖励函数，激励智能体避免与其他智能体发生碰撞并到达指定目标位置；

可选的，底层规划模型的奖励函数为：当两个智能体发生碰撞，奖励为负奖励；当智能体成功到达目标位置，奖励为正奖励；当没有发生碰撞同时也没有到达目标位置，智能体的速度越接近由RVO方法计算的无碰撞速度v_rvo，奖励值越大，否则，奖励值越小。

其奖励函数具体为:

其中，d_min表示两个智能体之间的最小距离，如果为0就意味着碰撞，会给予碰撞的智能体一个负奖励-1。如果智能体成功到达目标点会有一个正奖励1。同时本发明将RVO方法引入到奖励函数中。RVO(Reciprocal Velocity Obstacles)方法全称为相对速度障碍物算法，该算法被广泛应用与多智能体避障领域。在训练过程中每一个时间步都根据智能体状态计算由RVO方法产生的无碰撞速度v_rvo，并与当前智能体选择的每一步的速度比较，计算它们之间的欧氏距离，距离越小，奖励值越大。W为权重参数，表示训练过程中受RVO方法影响的程度。

步骤B4：每个智能体对应一个Actor网络与一个Critic网络，分别负责策略估计和价值估计，设置单独的经验池存放所有智能体每一步的经验，采用深度确定性策略梯度算法训练Critic网络和Actor网络的模型参数，使用设定迭代次数进行重复训练，以智能体获取的回报值最大为目标，直至奖励值趋于收敛，确定底层规划模型参数。

本实施例将将模拟人群中的每一个个体视为智能体，利用多智能体深度确定性策略梯度算法进行局部避免碰撞，提高了计算无碰撞速度的效率，随着人数增多，与相比于单独采用RVO方法的计算效率明显提升。

具体的，采用深度确定性策略梯度算法训练Critic网络和Actor网络的模型参数的训练过程如图6所示：在Actor网络中使用当前智能体状态和动作作为输入。而在Critic网络中使用总体状态和所有智能体采取的动作作为输入。总体状态为所有智能体的状态。

本实施例中，每个智能体都拥有一个Actor网络和Critic网络，分别负责策略估计和价值估计。采用集中式的训练和分布式的执行：即在训练的时候，价值估计网络的输入为智能体的联合状态和动作，输出一个Q值来指导策略估计网络的训练。而在训练完成之后，只需将智能体的观测状态作为策略估计网络输入，就能得到期望输出的动作。图3和图5用完全相同的网络模型参数实现了不同场景中的人群模拟，图3是图2场景的处理结果，图5是图4场景的处理结果体现了本实施例方法的泛化性和灵活性。

对于任意一个智能体i，设mⁱ为第i个智能体的观测，a_i为第i个智能体的动作，x为状态。假设π_i为第i个智能体的策略。

则策略估计的优化函数为

.为使得期望奖励最大化，策略梯度公式为：

其中，θ_i表示第i个智能体的Actor网络参数。

Critic网络为价值网络，负责价值估计，价值网络的梯度更新公式为：

其中，

表示第i个智能体的Critic网络参数，f_i表示第i个智能体的奖励值。Q_i(x,a₁,a₂,...,a_n)为第i个智能体的价值估计。x′为下一时间步的状态。Actor和Critic网络均通过Adam优化算法，优化网络参数，使损失最小化。

实施例2

基于实施例1，本实施例提供一种实现场景自适应的人群运动路径规划系统，包括：

获取模块，被配置为用于获取场景信息以及人群参数信息；

进一步地，规划模块包括：

初始化设置模块，被配置为用于根据获取的场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；

全局路径规划模块，被配置为用于利用深度确定性策略梯度算法对单个智能体进行路径规划，使得智能体的移动路径指向目标出口，得到全局规划路径；

局部避免碰撞规划模块，被配置为用于以使智能体避免与其他智能体发生碰撞为目标，采用相对速度障碍算法融合多智能体深度确定性策略梯度算法进行规划，对全局规划路径进行修正，得到最终的人群运动规划路径。

实施例3

基于实施例1，本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种实现场景自适应的人群运动路径规划方法，其特征在于，包括如下步骤：

获取场景信息以及人群参数信息；

所述多智能体深度强化学习框架模型中以每个人作为一个智能体，包括顶层规划模型和底层规划模型；顶层规划模型以智能体距离最近的出口作为疏散目标，利用深度确定性策略梯度算法规划，得到全局规划路径；底层规划模型以顶层规划模型的输出为状态值，以避免碰撞为目标进行局部规划，修正全局规划路径得到人群运动规划路径。

2.如权利要求1所述的一种实现场景自适应的人群运动路径规划方法，其特征在于：将获取的信息输入至训练好的多智能体深度强化学习框架模型，得到人群运动规划路径的方法，包括如下步骤：

根据获取的场景信息以及人群参数信息，进行多智能体深度强化学习框架模型内的参数的初始化设置；

利用深度确定性策略梯度算法对单个智能体进行路径规划，使得智能体的移动路径指向目标出口，得到全局规划路径；

以使智能体避免与其他智能体发生碰撞为目标，采用相对速度障碍算法融合多智能体深度确定性策略梯度算法进行规划，对全局规划路径进行修正，得到最终的人群运动规划路径。

3.如权利要求1所述的一种实现场景自适应的人群运动路径规划方法，其特征在于：顶层规划模型的训练过程，包括如下步骤：

根据获取的场景信息以及人群参数信息，设定顶层规划模型智能体的状态和动作空间；

从获取的真实视频中提取行人的运动属性；

设定轨迹匹配器用于提取智能体的状态；

设定顶层规划的智能体的奖励函数，激励智能体做出预期动作；

每个智能体对应一个Actor网络与一个Critic网络，分别负责策略估计和价值估计，采用深度确定性策略梯度算法训练Critic网络和Actor网络的模型参数，根据设定迭代次数进行迭代训练，以智能体获取的回报值最大为目标，直至训练出每个智能体的奖励值收敛，得到最终的模型参数。

4.如权利要求3所述的一种实现场景自适应的人群运动路径规划方法，其特征在于：顶层规划的智能体的奖励函数：当智能体与障碍物碰撞，奖励值为负数；当智能体到达总体目标位置奖励值为正数；智能体下一时刻比当前时刻更接近总体目标位置，奖励为正奖励，否则为负奖励；

或者，智能体的状态包括智能体的位置、速度、目标位置、障碍物距离；智能体的动作空间具体为智能体位置坐标变换的二维的连续空间；

或者，运动属性包括智能体每一时刻的纵坐标位置、横坐标位置、纵坐标速度和横坐标速度。

5.如权利要求1所述的一种实现场景自适应的人群运动路径规划方法，其特征在于：底层规划模型的训练过程，包括如下步骤：

接收顶层规划模型传输的智能体下一时刻的目标位置，并将其作为底层规划智能体的观测值；

设定底层规划智能体的观测和动作空间；

设定底层规划模型的智能体的奖励函数，激励智能体避免与其他智能体发生碰撞并到达指定目标位置；

每个智能体对应一个Actor网络与一个Critic网络，分别负责策略估计和价值估计，设置单独的经验池存放所有智能体每一步的经验，采用深度确定性策略梯度算法训练Critic网络和Actor网络的模型参数，使用设定迭代次数进行重复训练，以智能体获取的回报值最大为目标，直至奖励值趋于收敛，确定底层规划模型参数。

6.如权利要求5所述的一种实现场景自适应的人群运动路径规划方法，其特征在于：底层规划模型的奖励函数为：当两个智能体发生碰撞，奖励为负奖励；当智能体成功到达目标位置，奖励为正奖励；当没有发生碰撞同时也没有到达目标位置，智能体的速度越接近由RVO方法计算的无碰撞速度，奖励值越大，否则，奖励值越小。

7.如权利要求3或5所述的一种实现场景自适应的人群运动路径规划方法，其特征在于：采用深度确定性策略梯度算法训练Critic网络和Actor网络的模型参数，在Actor网络中使用当前智能体状态和动作作为输入，在Critic网络中使用所有智能体状态和所有智能体采取的动作作为输入。

8.一种实现场景自适应的人群运动路径规划系统，其特征在于，包括：

获取模块，被配置为用于获取场景信息以及人群参数信息；

9.如权利要求8所述的一种实现场景自适应的人群运动路径规划系统，其特征在于，规划模块包括：

10.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。