CN109670270A

CN109670270A - 基于多智能体深度强化学习的人群疏散仿真方法及系统

Info

Publication number: CN109670270A
Application number: CN201910028487.7A
Authority: CN
Inventors: 刘弘; 郑尚菲
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2019-04-23

Abstract

本公开公开了基于多智能体深度强化学习的人群疏散仿真方法及系统，根据人群疏散中个体的初始坐标和运动速度创建仿真场景；在疏散场景的每一个疏散出口处设置计数器，根据区域面积和人数计算出口的拥挤度，拥挤度是为在深度强化学习模型中训练路径时进行回报奖励的反馈；根据每个个体距离各个子区域内房间出口的位置对全体个体进行分组，选取处于组内局部区域最前端的个体作为组内领导；利用多智能体深度确定性政策梯度算法MADDPG对领导进行路径规划，将多个领导看作是多个智能体，多个智能体之间相互协同进而选择最佳疏散路径，引领者根据深度强化学习规划好的路径进行疏散；在组内的各个成员在改进社会力下跟随领导进行疏散活动。

Description

基于多智能体深度强化学习的人群疏散仿真方法及系统

技术领域

本发明涉及多智能体强化学习和计算机仿真技术领域，特别是涉及基于多智能体深度强化学习的人群疏散仿真方法及系统。

背景技术

本部分的陈述仅仅是提高了与本公开相关的背景技术，并不必然构成现有技术。

随着城市化进程的不断加快，城市内的建筑物以及人密度也在迅猛增加，随之而来的是公共场所人员大量聚集，而在人员密集的公众场所，由于人们对环境并不熟知，一旦发生突发事件，极易引起如人群拥堵、踩踏等恶性事件，如不能有效地疏散人群就往往会引发群死群伤等恶性事故。如何在突发事件发生时有效的进行灾情控制和人群疏散，从而减免人员伤亡和财产损失是国内外都高度关注的难题。而通过计算机仿真技术来进行场景建模、路径寻优以及人群运动行为建模，可以在达到最佳疏散演练效果的同时将成本最小化，因此，计算机仿真模拟成为研究突发事件下人群疏散的最主要方法。

随着人工智能的发展，人们越来越意识到仿真模拟领域和强化学习的结合可以达到更好的效果。现阶段结合强化学习做路径规划的研究大多数将整个框架视为马尔科夫博弈求解问题，仿真模型中的智能体像马尔科夫决策规定的那样，对整个环境开启“上帝视角”，熟知环境，知道自己所处的位置，状态，从而将环境看成是一个完全可观察的。但是，在现实生活中，如果我们已知了环境信息(各个房间位置，出口位置，身处位置)，那么我们对于每条通往出口的路径都已经熟知，通过自我观察以及经验判断，我们还是依据完全可观察的环境信息选择一个并不会太差的出口。相反，当我们身处在一个相对陌生的环境中，这时候没有了以上的“上帝视角”，环境也相应变成部分可观察的。也就是当我们进入某些并不熟悉的公众场所时候，我们对于出口位置了解并不全面，对于自己的所处整个场所相对位置也并不明确。我们对于这种情形进行人群紧急疏散仿真训练的需求相对来说是更加急迫的。

人群疏散仿真模型主要有两种，宏观模型和微观模型。宏观模型从整体出发，不考虑个体行为的局部细节信息。微观模型从个体的角度考虑每个个体与环境的交互，可以弥补宏观模型对行人细节描述的不足。社会力模型就是一种典型的微观模型，社会力模型是Helbing 等人于1995年提出的一个新的行人流模型，在社会力模型中将行人运动描述为力作用的结果，行人运动由自身驱动力、个体间交互力、个体与环境间交互力共同驱动。其中，自身驱动力描述个体向目标运动的期望；个体间交互力反映个体对他人的心理排斥及物理排斥，使个体之间保持一定距离，实现行人运动的碰撞避免；个体与环境间交互力保证个体与障碍物间的安全距离，使行人运动过程中平滑的规避障碍物。

当然，仅利用原始社会力模型进行人群疏散仿真时效果往往并不理想，主要还存在以下问题：第一，大规模人群疏散中社会行为的真实特征应考虑到“群组”，“小团体”等由于心理因素和社会关系形成的人群聚集。第二，没有明确的路径规划知识以至于发生拥堵不能很好的进行出口选择，往往会导致出现出口拥挤的现象。第三，疏散效率仍有待提高。

值得注意的是，在过去15年中，随着强化学习知识理论的不断完善，强化学习领域已经成为一个逐渐成熟的领域。这期间一些优秀实用的框架理论相继提出和应用，大大改进了强化学习原来的单智能体马尔科夫决策过程。尤其是对于陌生的环境，多个智能体无法直接确定自己所处的状态环境，必须根据模型的全域或者部分区域观察结果来推断状态分布，从来进行沟通交流，进行模型知识的共享，从而使得多智能体更加高效的进行协同。

因此，高效率地人群疏散仿真不仅仅成为亟待研究的科研方向，而且还是社会智能化需求的新的风向标。提出一个高效且智能的陌生环境人群疏散仿真方法具有很高的研究价值和实用价值。

发明内容

为了解决现有技术的不足，本公开提供了基于多智能体深度强化学习的人群疏散仿真方法及系统，以结合改进社会力以及多智能体的深度强化学习进行疏散仿真，处理效果比较高效；

第一方面，本公开提供了基于多智能体深度强化学习的人群疏散仿真方法；

基于多智能体深度强化学习的人群疏散仿真方法，包括：

根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；

计算每个出口的拥挤度；

实现对全体个体进行分组；选取组内领导；

将每一个组内领导视为一个智能体Agent，利用多智能体深度确定性策略梯度算法 MADDPG进行路径规划，MADDPG算法中的评论员Critic依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励；进而为每个智能体输出最佳疏散路径。

作为一种可能的实现方式，从视频中提取指定区域中的场景信息以及人群参数信息；所述场景信息，包括若干个子房间且每个子房间被视为一个子区域；每个子房间设有一个或多个出口，整个疏散场景设有一个或多个出口。

作为一种可能的实现方式，在每一个出口处设置计数器，用于统计每个出口疏散的人群个体数，结合当前出口的区域面积，计算每个出口的拥挤度。

作为一种可能的实现方式，将每个子房间内成员划为一组，如果某成员位于子房间外侧，则将该成员与距离该成员最近的子房间出口所对应的子房间成员划分为一组，实现对全体个体进行分组。

作为一种可能的实现方式，针对每个分组中的所有个体，选取距离每个房间的出口最近的个体作为组内领导。

作为一种可能的实现方式，当组内领导移动到出口时，该组内领导留在出口的位置不变，继续领导组内剩余组员的疏散，最后输出各个组内领导的疏散路径。

作为一种可能的实现方式，组员接受组内领导的引领，利用改进社会力模型计算组员与领导、组员与组内其他组员、组员与其他组的组员以及组员与环境的受力，进行运动，直至疏散结束。

作为一种可能的实现方式，从视频中提取指定区域中的人群参数信息，是指：利用KLT 追踪算法从所述视频中提取出人群疏散中个体的初始坐标和运动速度。

作为一种可能的实现方式，所述场景信息，包括下列信息中的至少一种信息：出口位置和每个出口对应的出口区域面积。

作为一种可能的实现方式，在每一个出口处设置计数器，用于统计每个出口疏散的人群个体数，结合当前出口的区域面积，进而计算每个出口的拥挤度：

设立拥挤阈值，若拥挤度小于拥挤阈值，则各个领导从环境中得到的回报奖励，为正数。如果拥挤度大于阈值，则将各个领导从环境中得到的回报奖励，为负数；

奖惩信息R为计算智能体Agent的状态现实网络中的估计期望回报y的重要指标：

y＝R+γQ'(s_,a_|θ^Q′)，

其中，γ表示折扣因子，取值0到1之间；Q'表示状态现实网络；s_表示表示下一步的状态；a_表示下一步的动作；θ^Q'表示状态现实网络的参数；

作为一种可能的实现方式，利用多智能体深度确定性策略梯度算法MADDPG进行路径规划，依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励，进而为每个智能体输出最佳疏散路径的具体步骤为：

将每一个组内领导看成是一个智能体Agent；

设定智能体的可移动方向和当前位置：将疏散场景划分为网格，设定智能体的当前位置为单个网格的位置坐标，用网格对角线交点的坐标表示；设定智能体的下一步的可移动方向，包括：上移、下移、左移或右移；

设置评论员Critic的奖惩机制，奖惩规则：各智能体与高拥挤度区域或障碍物大于设定定距离，若小于等于设定距离则给予的回报奖励为负值Q；否则各个组内领导从评论员Critic 处得到的回报奖励为正值Q；如果智能体最后找到整个疏散区域的最终出口，给予相应的奖励为正值Q’；

每个智能体Agent即对应一个演员Actor网络，且一个演员Actor网络对应一个评论员 Critic网络，设立单独的经验池用于存储各个Agent运动行为的状态-行为对{当前位置状态s，当前动作a，下一步位置状态s_，回报R}；

训练评论员Critic网络和演员Actor网络的模型参数，使用N个回合重复训练步骤，以智能体Agent获取的回报值最大为目标，直至训练出每个智能体的最短路径。

作为一种可能的实现方式，

建立评论员Critic模块，评论员Critic模块由两个结构相同，参数更新时间不同的网络构成，分别是及时更新参数的状态估计网络Q，参数表示为θ^Q，延时更新参数的状态现实网络Q'，其参数为θ^Q′；对于状态现实网络Q'来说，抽取经验池{组内领导的当前位置状态s，组内领导的当前动作a，组内领导的下一步位置状态s_，回报R}的组内领导的当前动作a，组内领导的下一步位置状态s_，得到评论员Critic给与组内领导的总回报R；

利用状态现实网络估计得到在人群疏散场景下一个位置状态s_时采取的下一个运动动作 a_，计算动作-价值函数Q'(s_,a_|θ^Q′)，

Q'(s_,a_)←Q'(s_,a_)+α[R+γmax_a'Q'(s',a')-Q(s_,a_)]

其中，s’和a’是s_和a_的下一步状态和动作，通过R以及公式右侧的不断迭代，得到动作价值函数计算出的Q值。

根据估计期望回报y＝R+γQ'(s_,a_|θ^Q′)计算y，其中，γ(γ∈[0,1])表示为衰减因子。

利用状态估计网络，根据经验池的当前位置状态s和当前动作a，计算得到动作-价值 Q(s,a|θ^Q)。

Q(s,a)←Q(s,a)+α[R+γmax_a'Q(s',a')-Q(s,a)]

现实和估计之间的期望回报之间的均方误差L为：

其中，N为更新总次数，i为第i次更新；

利用误差L完成对状态估计网络的参数更新，因为状态现实网络是延迟更新，所以加入平衡因子φ的状态现实网络更新公式为：

θ^Q′＝φθ^Q+(1-φ)θ^Q′。

经过训练后的期望回报，作为人群疏散仿真中的动作优良性判断，Critic模块在迭代回合中不断加强期望回报大的动作使用率；

建立Actor模块，模块由两个结构相同，参数更新时间不同的网络构成，分别是及时更新参数的动作估计网络μ，参数表示为θ^μ，延时更新参数的动作现实网络μ'，参数表示为θ^μ′；

利用动作现实网络来说，根据经验池中领导的下一个位置状态s_，通过神经层计算实际的疏散发生时候领导的下一步动作a_，即μ'(s_|θ^μ′)，用于计算Critic里状态现实网络的目标动作-价值函数Q'(s_,a_|θ^Q′)；

Q(s_,a_)←Q(s_,a_)+α[R+γmax_a'Q(s',a')-Q(s_,a_)]

利用动作估计网络来说，根据经验池领导的当前状态s，通过神经层计算当前动作，即μ(s|θ^μ)，通过领导的当前状态s的实际动作μ(s|θ^μ)和状态估计网络输出Q(s,a|θ^Q)联合更新动作估计网络的参数，利用梯度下降法更新参数：

因为动作现实网络是延迟更新，所以加入平衡因子φ的状态现实网络更新公式为：θ^μ′＝φθ^μ+(1-φ)θ^μ′。

训练Critic网络和Actor网络的模型参数，并用新产生的<s,a,s',r>对替换经验池中之前存储的<s,a,s',r>对；使用N个回合重复训练步骤，直至训练出多智能体的优化路径或达到最大迭代步数；

由于Critic模块在迭代回合中不断加强期望回报大的动作，在人群疏散场景中此动作会使得状态位置不断朝着场景内最优状态位置改进，利用训练好的收敛的参数和稳定的模型，最终得到最优状态序列，也就是对于场景的最优路径；

作为一种可能的实现方式，利用改进社会力模型计算组员与领导、组员与组内其他组员、组员与其他组的组员以及组员与环境的受力，进行运动的具体公式为：

其中，表示群体中个体与领导者之间的纽带，对应人群疏散的场景里领导对组员的受力，表示不同行人i和j之间的相互作用力，对应人群疏散的场景里组员与组内其他组员或者组员与其他组的组员所有行人之间的受力，表示障碍物对行人的作用力，对应人群疏散的场景里场景对行人的力。m_i是行人i的质量，v_i(t)为其速度，t是运行时间。

利用力学原理构建社会力动力模型，驱动行人进行合理运动行为。将原始社会力中的这个单个行人i的力改为与领导l相互吸引的力以此改进社会力为力学模型，进行组员的跟随领导的行为效应。

第二方面，本公开还提供了基于多智能体深度强化学习的人群疏散仿真系统；

基于多智能体深度强化学习的人群疏散仿真系统，包括：

初始化设置模块，根据场景信息以及人群参数信息，进行疏散场景仿真模型内的参数的初始化设置；

拥挤度计算模块，计算每个出口的拥挤度；

组内领导选取模块，实现对全体个体进行分组；选取组内领导；

疏散仿真模块，将每一个组内领导视为一个智能体Agent，利用多智能体深度确定性策略梯度算法MADDPG进行路径规划，MADDPG算法中的评论员Critic依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励；进而为每个智能体输出最佳疏散路径。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面任一可能的实现方式中的方法。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面任一可能的实现方式中方法的步骤。

与现有技术相比，本公开的有益效果是：

(1)本发明采用集中训练，分散执行的框架，大大提高了计算效率。在训练时，可以在 Critic阶段加上一些额外的信息来得到更准确的期望回报，比如代表其他智能体状态的位置坐标和代表动作的下一步运动方向(上下左右)等等，这也就是集中训练的意思，即每个智能体不仅仅根据自身的情况，还根据其他智能体的行为来评估当前动作的价值。分散执行指的是，当每个Agent都训练充分之后，每个Actor就可以自己根据状态采取合适的动作，此时是不需要其他智能体的状态或者动作的。

(2)利用深度强化学习算法解决了由于智能体不断变化策略而导致的环境非平衡性问题。深度确定性政策梯度算法(DDPG)结合多智能体进行路径规划，其中，深度网络能够使用深度Q网络(DQN)中的经验池和双网络结构促进神经网络能够有效学习路径知识，并且由于其确定性机制使得智能体Actor(演员)不再输出每个动作的概率，而是一个具体的动作，这更加有助于我们连续动作空间中进行学习。将智能体看作是算法中的Actor(演员)，每个演员对应一个评论家，评论家观测各个智能体进而给出对应智能体路径状态建议，进行策略更新。这样做起来比直接使用奖励更加的稳定，因为直接使用奖励可能出现较大的差异波动，增强的Critic级别后，每个Critic可以获取所有智能体的行为和观察。MADDPG启用了一个集中式Critic来向智能体提供同类代理的观察和潜在行为的信息，从而将一个不可预测的环境转换成可以预测的环境，解决多智能体强化学习的环境非平衡性问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明基于多智能体强化学习的陌生环境人群疏散仿真方法的流程图；

图2是集中训练分散执行的框架示意图；

图3是仿真实验中人群的初始化示意图；

图4是人群分组后引领个体选择疏散目标，并准备向出口移动的示意图；

图5是引领个体执行深度确定性策略梯度算法，组内个体跟随引领接近出口的示意图；

图6是人群疏散结束时刻示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

专业术语解释

KLT(追踪算法)，英文全称为：Kanade-Lucas-Tomasi中文解释为：(人名)卡纳德-卢卡斯-托马斯

MADDPG，英文全称为：Multi-Agent Deep Deterministic Policy Gradient中文解释为：多智能体深度确定性策略梯度

本申请提供了多智能体强化学习的陌生环境人群疏散仿真的方法，整体技术构思是：提取指定区域视频中的人群的原始数据，根据区域场景以及获取的原始数据进行仿真个体的初始化设置；在创建的疏散场景模型的每一个疏散出口处设置计数器，用于统计每个出口疏散的人群个体数，进而计算出口的拥挤度；根据每个个体距离各个子区域内房间出口的位置对全体个体进行分组，选取处于组内局部区域最前端的个体作为组内领导；在深度强化学习离线学习过程中，将每一个领导看成一个智能体，利用多智能体深度确定性政策梯度算法 (MADDPG)进行路径规划，进而选择最佳疏散路径；受引领者(组内领导)引领，通过改进社会力模型计算组员与组内，组间以及环境的受力，进行运动，直至疏散结束；

本申请的一种典型的实施方式，具体流程如图1所示，提供了多智能体强化学习在陌生环境的人群疏散仿真的方法，包括：

(1)收集视频，利用KLT追踪算法从所述视频录像中提取出人群疏散中个体的初始坐标，运动速度等特征；

(2)在创建的疏散场景模型的每一个疏散出口处设置计数器，根据区域面积和人数计算出口的拥挤度；

(3)根据每个个体距离各个子区域内房间出口的位置对全体个体进行分组，选取处于组内局部区域最前端的个体作为组内领导；

(4)利用多智能体深度确定性政策梯度算法(MADDPG)对领导进行路径规划，进而选择最佳疏散路径，引领者根据深度强化学习规划好的路径进行疏散；

(5)在组内的各个成员在改进社会力下跟随领导进行疏散活动；

(6)当领导移动到出口，他/她应该留在出口，并继续领导小组，直到所有的人都被疏散；

(7)记录各组引领者的路径，作为人群疏散的推荐路径。

步骤(1)：收集实景视频数据，利用KLT追踪算法从视频中提取用于人群疏散仿真环境建模的人群参数信息，所述人群参数信息主要包括全部个体的坐标，速度等。

步骤(2)：根据所提取的信息参数以及真实疏散场景进行建立模型，所述的模型包括场景模型和人物模型，并将人物模型导入疏散场景模型中，所述疏散场景模型作为人群疏散的环境空间，所述人物模型作为疏散人群。初始化操作如图3所示，提取疏散场景模型的语义信息，在该疏散场景下将人群参数信息作为预设疏散人群参数信息，并根据预设疏散人群的参数信息进行人群初始化。

相应的，根据疏散场景以网格表的形式进行深度强化学习场景模型的建立，以疏散场景坐标0.1倍的关系，将疏散场景划分为网格，其中，门以及障碍物都需要标明，网格对角线的交点的x,y坐标写成二维数组的形式表示此单个网格的坐标，此网格的位置坐标应于深度强化学习的状态，用于最后对应状态序列的路径生成输出。

此外，在创建的场景模型出口处设置计数器，用于统计每个出口疏散的行人个体数。以门口区域(3m*6m)为区域面积计算量，与区域内个体数计算出区域拥挤度；所述拥挤度为相应区域行人个体数总数与相应出口区域面积的比值，若拥挤度小于拥挤阈值，则各个领导从环境中得到的回报奖励不变，为+10。如果拥挤度大于阈值，则将各个领导从环境中得到的回报奖励变为-10。奖惩信息R为计算智能体Agent的状态现实网络中的估计期望回报y的重要指标：y＝R+γQ'(s_,a_|θ^Q′)，从而参与Critic模块计算。

步骤(3):如图4所示，将初始化的人群依据各个子房间内成员划为一组，子房间外距离各个子房间门口最近的个体与此子房间内组员合为一组原则，对全体个体进行分组，选取处于组内局部区域最前端的个体作为组内领导；

步骤(4)：根据步骤(2)(3)中由疏散场景抽象而成的网格图的每个矩形网格加上领导以及障碍物进一步表示成场景。

确定好环境模型后，相应的，本发明利用多智能体深度确定性政策梯度算法(MADDPG) 算法进行训练路径。多智能体深度确定性政策梯度算法(MADDPG)是将单智能体深度确定性政策梯度算法(DDPG)应用到多智能体领域。多智能体深度确定性政策梯度，其框架如图2所示。作为一种可能的实现方式，利用多智能体深度确定性策略梯度算法MADDPG进行路径规划，进而为每个智能体输出最佳疏散路径的具体步骤为：

将每一个组内领导看成是一个智能体；

设定智能体的移动动作空间和状态空间：根据疏散场景以网格表的形式进行深度强化学习场景模型的建立，以疏散场景坐标0.1倍的关系，将疏散场景划分为网格，本发明中设定智能体的状态为单个网格的位置坐标，用网格对角线交点的x,y坐标写成二维数组形式表示；设定智能体的动作为在现状态下(根据坐标变换)的下一步的运动方向{上移，下移，左移，右移}；

设置环境中的奖惩机制：当智能体之间达到某种状态时环境所给予的奖惩回报。本发明主要设定了两种奖惩规则：各智能体应与高拥挤度区域和障碍物保持一定距离，若违背给予相应的惩罚(-10)，否则各个领导从环境中得到的回报奖励不变，为+10；根据智能体是否可以找到出口，给予相应的奖励(+50)；

每个智能体即对应一个具有动作估计网络和动作现实网络的结构完全相同，但更新参数时间不一致的双网络结构的演员Actor的模块，且每个Actor对应一个具有状态估计网络和动作估计网络的结构完全相同，但更新参数时间不一致的双网络结构的Critic的模块，经过初始化网络参数后，由于两个模块的参数更新需要在经验学习的基础上进行，所以设立单独的经验池用于存储各个Agent运动行为的状态-行为对{当前状态s，当前动作a,下一步状态s_，回报R}；

建立Critic模块，模块由两个结构相同，参数更新时间不同的网络构成，分别是及时更新参数的状态估计网络Q，参数表示为θ^Q，延时更新参数的状态现实网络Q'，其参数为θ^Q'。对于状态现实网络来说，抽取经验池{领导的当前状态s，领导的当前动作a,领导的下一步状态s_，回报R}的当前状态下采取动作a，领导的到达下一个状态s_，因为处于陌生环境，每个智能体并不能完全熟悉场景，所以Agent的评论家Critic模块在给出回报奖励的时候，不仅考虑了当前智能体自身的状态区域State-Action(状态动作)信息，还考虑其他智能体的状态区域State-Action信息，两种信息加权结合，共同影响奖励R生成。其中：设环境给与Agent a1自身的State-Action信息按照奖励规则返回奖励为R1，设环境给与其他Agent的State-Action 信息按照奖励规则返回奖励为R2，衰减系数为μ(0<μ<1)，影响权重为ɑ(0<ɑ<1)，则由这两部分加权影响的Agent a1的总奖励R为：R＝(ɑ*R1)+(1-ɑ)*R2*μ。

得到总回报R后，利用状态现实网络估计得到在我们人群疏散场景下一个位置状态s_时采取的下一个运动动作a_，计算动作-价值函数，可表示为Q'(s_,a_|θ^Q′)，根据估计期望回报y＝R+γQ'(s_,a_|θ^Q′)计算y，其中，γ(γ∈[0,1])表示为衰减因子。

对于状态估计网络，根据经验池记录的领导的当前状态s和当前动作a，计算得到动作- 价值函数Q(s,a|θ^Q)。现实和估计之间的期望回报之间的均方误差为：其中，N为更新总次数，i为第i次更新，利用误差L完成对状态估计网络的参数更新，因为状态现实网络是延迟更新，所以加入平衡因子φ的状态现实网络更新公式为：θ^Q′＝φθ^Q+(1-φ)θ^Q′。经过训练后的期望回报，可以作为人群疏散仿真中的动作优良性判断，领导的Critic模块在人群疏散迭代回合中不断加强期望回报大的动作使用率。

利用动作现实网络来说，根据经验池中领导的下一个状态s_，通过神经层计算实际的疏散发生时候领导的下一步动作a_，即μ'(s_|θ^μ′)，用于计算Critic里状态现实网络的目标动作-价值函数Q'(s_,a_|θ^Q′)；

对于状态估计网络来说，根据经验池记录领导的当前状态s，计算当前动作，即μ(s|θ^μ)，通过当前状态s的实际动作μ(s|θ^μ)和状态估计网络输出Q(s,a|θ^Q)联合更新动作估计网络的参数，利用梯度下降法更新参数：因为动作现实网络是延迟更新，所以加入平衡因子φ的状态现实网络更新公式为：θ^μ′＝φθ^μ+(1-φ)θ^μ′。

训练Critic网络和Actor网络的模型参数，并用新产生的<s,a,s',r>对替换经验池中之前存储的<s,a,s',r>对；由于Critic模块在迭代回合中不断加强期望回报大的动作，执行此动作会使得状态坐标不断朝着场景内最优状态改进，利用训练好的收敛的参数和稳定的模型，最终得到最优状态序列，也就是对于场景的最优路径；在人群疏散仿真实验中，使用4000个回合重复此步骤，直至训练出多智能体的优化路径或达到最大迭代步数；

将期望回报最大的动作经过的状态坐标输出得到疏散路径，由领导按照此路径带领组员进行疏散，仿真效果如图5所示。

步骤(5)：群组内普通行人按照改进的社会力模型跟随领导运动。使用的改进社会力模型，是在原始社会力模型的基础上引入团体领导吸引力，描述了行人的成群结队现象。

改进社会力公式如公式(3)所示：

其中，表示群体中个体与领导者之间的纽带，对应我们人群疏散的场景里即为领导对组员的受力，表示不同行人i和j之间的相互作用力，对应我们人群疏散的场景里即为组内与组间所有行人之间的受力，表示障碍物对行人的作用力，对应我们人群疏散的场景里，即为场景对行人的力。利用力学原理构建社会力动力模型，驱动行人进行合理运动行为。我们主要的改进是原始社会力中的这个单个行人i的力改为与领导l相互吸引的力根据牛顿力学原理得到的有公式(4)表示：

在公式(4)中，指向领导的位置方向进行跟随，mi是组员i的质量，表示组员跟随领导的期望速度，表示组员实际运动速度，τ_i表示特征时间。

步骤(6)：在我们进行真实的场景疏散时候，当我们跟随前方的人向出口移动时候，可能最初的领导者已经脱离了疏散区域，但是我们可以抽象认为成后面的人其实仍然是跟随的最初的领导路径，这也是合乎情理的。所以我们在仿真设计的时候，应当设计为当领导移动到出口，他/她应该留在出口，并继续领导小组，直到所有的人都被疏散。记录各组引领者的路径，作为现实生活中的人群疏散时候的推荐路径。

下面提供一个仿真实施例：

由50个人在100*80的平面区域上进行计算机人群疏散仿真，如图3-图6所示。图3是从视频提取人群参数后对于仿真实验中人群的初始化示意图；图4是人群分组后引领个体选择疏散目标，并准备向出口移动的示意图，其中，不同的组以不同的颜色进行区分；图5是是引领个体执行深度确定性策略梯度算法，组内个体跟随引领接近出口的示意图；图6是各群组在引领个体的带领下接近出口直至疏散结束的状况。由图5和图6可以看出，由于增加了群组关系，仿真疏散的行人会成组的移动，这也从侧面反映，我们通过深度强化学习规划好领导的疏散路径后，整个仿真疏散变得更加具有层次，切合现实中陌生环境下的人群疏散

本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成方法中的各个操作，为了简洁，在此不再赘述。

应理解，在本公开中，该处理器可以是中央处理单元CPU，该处理器还算可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外一点，所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于多智能体深度强化学习的人群疏散仿真方法，其特征是，包括：

计算每个出口的拥挤度；

实现对全体个体进行分组；选取组内领导；

将每一个组内领导视为一个智能体Agent，利用多智能体深度确定性策略梯度算法MADDPG进行路径规划，MADDPG算法中的评论员Critic依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励；进而为每个智能体输出最佳疏散路径。

2.如权利要求1所述的方法，其特征是，从视频中提取指定区域中的场景信息以及人群参数信息；所述场景信息，包括若干个子房间且每个子房间被视为一个子区域；每个子房间设有一个或多个出口，整个疏散场景设有一个或多个出口；从视频中提取指定区域中的人群参数信息，是指：利用KLT追踪算法从所述视频中提取出人群疏散中个体的初始坐标和运动速度。

3.如权利要求1所述的方法，其特征是，

在每一个出口处设置计数器，用于统计每个出口疏散的人群个体数，结合当前出口的区域面积，计算每个出口的拥挤度；

将每个子房间内成员划为一组，如果某成员位于子房间外侧，则将该成员与距离该成员最近的子房间出口所对应的子房间成员划分为一组，实现对全体个体进行分组。

4.如权利要求1所述的方法，其特征是，针对每个分组中的所有个体，选取距离每个房间的出口最近的个体作为组内领导。

5.如权利要求1所述的方法，其特征是，当组内领导移动到出口时，该组内领导留在出口的位置不变，继续领导组内剩余组员的疏散，最后输出各个组内领导的疏散路径。

6.如权利要求1所述的方法，其特征是，组员接受组内领导的引领，利用改进社会力模型计算组员与领导、组员与组内其他组员、组员与其他组的组员以及组员与环境的受力，进行运动，直至疏散结束。

7.如权利要求1所述的方法，其特征是，利用多智能体深度确定性策略梯度算法MADDPG进行路径规划，依据每个出口的拥挤度对智能体的出口选择给出对应的回报奖励，进而为每个智能体输出最佳疏散路径的具体步骤为：

将每一个组内领导看成是一个智能体Agent；

设置评论员Critic的奖惩机制，奖惩规则：各智能体与高拥挤度区域或障碍物大于设定定距离，若小于等于设定距离则给予的回报奖励为负值Q；否则各个组内领导从评论员Critic处得到的回报奖励为正值Q；如果智能体最后找到整个疏散区域的最终出口，给予相应的奖励为正值Q’；

每个智能体Agent即对应一个演员Actor网络，且一个演员Actor网络对应一个评论员Critic网络，设立单独的经验池用于存储各个Agent运动行为的状态-行为对{当前位置状态s，当前动作a，下一步位置状态s_，回报R}；

8.基于多智能体深度强化学习的人群疏散仿真系统，其特征是，包括：

拥挤度计算模块，计算每个出口的拥挤度；

9.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。