CN111881625A

CN111881625A - 一种基于深度强化学习的人群疏散仿真方法及系统

Info

Publication number: CN111881625A
Application number: CN202010751741.9A
Authority: CN
Inventors: 张义; 武曲; 郭坤; 王玺
Original assignee: Qingdao University of Technology
Current assignee: Qingdao University of Technology
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-03

Abstract

本公开提出一种基于深度强化学习的人群疏散仿真方法及系统，所述方案步骤一，构建模拟环境，搭建包含不同功能区的模拟环境，包含房间、楼道、危险点等；步骤二，构建深度强化学习模型，搭建符合模拟环境的神经网络，编写处理逻辑；步骤三，编写训练逻辑，联通模型与环境，使得模型可以和环境进行交互，通行不断的根据环境的反馈进行自身参数的修正，最终收敛可以进行最佳逃生路径的计算；所述方案利用深度强化学习方法解决灾后逃生的路径规划问题，本公开所述方案不需要人工获得环境数据，而是与环境自行交互，极大的提高了灾后路径规划的效率以及规划路径的安全性。

Description

一种基于深度强化学习的人群疏散仿真方法及系统

技术领域

本公开涉及人群疏散仿真技术领域，特别涉及一种基于深度强化学习的人群疏散仿真方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

近年来，随着大型公共场所数目增多，行人拥挤现象随处可见。在人群密集的公共场所，行人安全意识的缺乏和对周围环境的不熟悉暗藏了极大地安全隐患，尤其是当火灾等灾难发生时，人员的快速安全疏散成为亟待解决的问题。对于人流量大、人员构成变化性强的公共场所，行人往往对环境不够了解，采用传统的疏散演练方法难以用较低成本达到模拟各种情境的效果；如何真实快速的模拟出人群在公共场所发生意外事故时的疏散路径则成为我们亟待解决的重要问题，通过模拟人群疏散路径可以帮助安全部门预测意外事故发生时人群的疏散过程，进而提出有效的运动规划解决方案，缩短人员疏散时间，减少伤亡人数。

发明人发现，目前比较成熟的路径规划算法有A-star算法、人工势能算法、元胞自动机、模拟退火算法、遗传算法、Q-Learning算法等等，这些方法存在一个较大的弊端，其无法对错综复杂的环境进行快速适应及学习并做出及时响应，因此导致出现路径规划效率低且准确性差的问题，进而无法对灾后人员进行逃生路径实时有效的指导。

发明内容

本公开为了解决上述问题，提出了一种基于深度强化学习的人群疏散仿真方法及系统，利用深度强化学习方法解决灾后逃生的路径规划问题，本公开所述方案不需要人工获得环境数据，而是与环境自行交互，极大的提高了灾后路径规划的效率以及规划路径的安全性。

根据本公开实施例的第一个方面，提供了一种基于深度强化学习的人群疏散仿真方法，包括：

建立场景模型，初始化场景模型中的危险区域墙体、智能体危险区域、危险区域以及安全出口；

构建深度强化学习网络模型；

制定环境回报配置，并根据所述环境回报配置对所述深度强化进行训练；

根据智能体起点位置，利用训练好的深度强化学习网络模型计算最佳逃生路径。

进一步的，所述深度强化学习网络模型采用DPES-Dueling-DQN网络模型，所述DQN采用离线学习的机制，先将采集的数据样本存入记忆库，记忆库存满之后，新产生的数据将会从头开始覆盖存储，这种方式会覆盖掉有价值的数据，为了避免上述问题，通过对记忆库中的样本进行优先级定义，并采用PES根据优先级对样本进行有选择的替换。

进一步的，所述环境回报配置设置有单步回报、越界回报、碰壁回报、险地回报、危险区域以及安全出口回报。

进一步的，所述单步回报表示为，当环境中出现险情时，能够通过模型选择一系列的最佳动作以最大的逃生回报完成逃生过程；所述越界回报和碰壁回报表示为，当智能体在区域墙体边缘选择撞墙动作，设定此类动作为负值回报；所述险地回报表示为，智能体踏入险地即死亡，回合结束，故将险地回报设定为全局最小值；所述安全出口回报表示为，安全出口为路径规划任务的最终目标，故赋予其全局最大正值回报。

根据本公开实施例的第二个方面，提供了一种基于深度强化学习的人群疏散仿真方法及系统，包括：

场景构建模块，其用于建立场景模型，初始化场景模型中的墙体、智能体、危险区域以及安全出口；

网络模型构建模块，其用于构建深度强化学习网络模型；制定环境回报配置，并根据所述环境回报配置对所述深度强化进行训练；

路径规划模块，其用于根据智能体起点位置，利用训练好的深度强化学习网络模型计算最佳逃生路径。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种基于深度强化学习的人群疏散仿真方法及系统。

根据本公开实施例的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种基于深度强化学习的人群疏散仿真方法及系统。

与现有技术相比，本公开的有益效果是：

本公开所述方案利用深度强化学习方法解决了灾后人员逃生的路径规划问题，现有的路径规划方法多为在环境已知的情况下进行的路径规划，需要人工对环境进行数据提取，传入模型再计算得出最优路径；而本申请所述方案无需人工获得环境数据，而是与环境自行交互，通过环境的反馈来不断的优化模型，最终得到可以计算出最佳路径的模型，极大的提高了路径规划的实时性以及精确度，有效的提高了用户灾后逃生的安全性。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例一中所述的人群疏散仿真方法的流程框架示意图；

图2为本公开实施例一中所述的核心神经网络结构图；

图3为本公开实施例一中所述的模拟环境分布图；

图4为本公开实施例一中所述的火灾发生后的模拟环境分布图；

图5为本公开实施例一中所述的火灾发生后逃生引导方向图；

图6为本公开实施例一中所述的模拟环境仿真模型示意图；

图7为本公开实施例一中所述的最佳逃生路径的效果展示图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一：

本实施例的目的是提供一种基于深度强化学习的人群疏散仿真方法。

如图3所示为本实施例中所构建的场景模型，如图4所示模拟了火情发生情况时的场景，一种基于深度强化学习的人群疏散仿真方法，包括：

根据真实环境建立场景，初始化场景模型中的墙体、智能体、危险区域、危险区域以及安全出口；

构建深度强化学习网络模型；

进一步的，所述场景模型的建立根据实际需求构建建筑物的2D或3D场景模型，并根据实际情况，在场景模型添加相应的墙体、智能体、危险区域以及安全出口；本实施例中采用模拟建筑物2D场景模型的方式进行仿真实验。

进一步的，所述深度强化学习网络模型采用DPES-Dueling-DQN网络模型，其中，DPES中的D代表Distributed，分布式，是训练模型时的一种策略，通过多线程同时训练；通过采用分布式策略进行模型的训练，有效提高了模型训练的效率；所述DQN采用离线学习的机制，先将采集的数据样本存入记忆库，再随机选取数据库中的部分数据进行随机梯度下降来进行模型学习，记忆库存满之后会覆盖存储，这样会将有价值的样本数据覆盖，为了避免上述问题，通过对记忆库中的样本进行优先级定义，并采用PES根据优先级对样本进行有选择的替换。

进一步的，所述单步回报表示为，当环境中出现险情时，使智能体通过选择一系列的动作最终得到一条最佳回合回报的路径；所述越界回报和碰壁回报表示为，当智能体在墙体边缘选择撞墙动作，设定此类动作为负值回报；所述险地回报表示为，智能体踏入险地即死亡，回合结束，故将险地回报设定为全局最小值；所述安全出口回报表示为，安全出口为路径规划任务的最终目标，故赋予其全局最大正值回报。

具体的，Q-Learning算法是强化学习中一种经典的基于值的算法，该算法维护一个状态与动作的Q值表格，在每一个状态下，都可以通过查询表格的方式获得各个动作所对应的Q值，而后按照∈贪婪策略进行动作选择，即按∈的概率随机选择动作，按1-∈的概率选择Q值最大的动作，由此可以兼顾强化学习中的探索与利用两个过程；在动作执行之后，根据从环境中获得回报r按下式对当前<s，a>值对对应的Q值进行更新

Q(s，a)←Q(s，a)+7[r+max_a′Q(s′，a′)-Q(s，a)] (1)循环直至整个Q表收敛；

其中，γ表示衰减度，用来表达一个回合中较后的动作所产生的回报对较前的动作选择的影响；

Q-Learning算法可以近乎完美地解决低维简单的强化学习问题，但是在处理多状态多动作的复杂问题时，Q-Learning算法就会变得力不从心，复杂的状态空间和动作空间让Q值表变得非常巨大，两相组合更是使得Q值的表项量级呈指数型增长，这就导致Q值表的收敛变的异常困难；另外对于为参与训练的状态，Q-Learning算法将无法为其生成动作，也就是说Q-Learning算法没有泛化能力；

相对于QLearning通过静态表来存储<状态，动作>的Q值，DQN通过一个神经网络根据当前的状态输入动态的生成所有动作对应的Q值，进而进行动作选取；这不仅解决了Q值表庞大难收敛的问题，而且一个训练好的Q值生成网络，即使对于未参与过训练的状态，也能准确的生成Q值并选择动作。

DQN通过冻结参数和离线学习两个关键机制保证实现。

DQN由两个结构相同但参数间隔更新的网络构成，可以分别定义为Q_target和Q_eval，其中Q_eval从记忆库中提取数据进行学习，参数进行实施更新，而Q_target每隔一定步数之后同步Q_eval的参数，通过构造

来进行Q_eval网络的学习。

深度学习的使用通常以训练数据相互之间互不相关为前提，而在强化学习中，一个回合的前后动作之间往往存在着很强的相关性，这就为深度学习的使用带了困扰；在DQN中，通过离线学习的方式解决了这个问题；DQN引入了记忆库的概念，模型会将训练过程中的所有实时产生的<s，a，s′，r>元组保存在记忆库中，并不立即用来进行模型的学习，而是通过在记忆库中随机抽样的方式选择数据进行网络的学习；这样就有效地减弱了数据之间的相关性，使得训练好的模型能够具有泛化性。

PES全称为Prioritized Experience Substitution(优先级经验替换)；DQN采用的是离线学习的机制，先将采集的数据样本存入记忆库，而后再从数据库中随机选取部分数据进行随机梯度下降来进行模型学习。当记忆库中的数据存满之后，新存入的数据会从头开始覆盖式存储，这样会导致有价值的数据会被覆盖，不利于模型的尽快收敛。

为了解决上述问题，本申请采用PES根据优先级对样本进行有选择的替换，通过公式(3)为训练样本设置了优先级；此处的训练样本数据包括：状态：在本文中应该是智能体所处网格点的坐标，如(2，5)；动作：上下左右，用数字1、2、3、4表示；回报：智能体达到不同的环境状态将获得不同的回报；具体的，通过训练好得模型控制环境中智能体在环境产生动作，在不同的状态(即坐标)之间转换，到达某种状态时，将获得某回报，训练好的模型会将每一条(状态，动作，回报)记录到记忆库中，这么一条(状态，动作，回报)就是一个样本；同时地，模型也从数据库中提取数据样本进行训练(需要注意的是，这种边存边取的过程是必须的，取的时候随机取，为了能更充分的学到各种情况下的数据)；

其中，ξ_i＝1-p_i，而p_i定义如下

其中δ_i为样本在参与训练时产生的误差，误差越小，说明模型对此样本已经拟合的很好，在新样本覆盖时，此样本可以被覆盖替换；反之，误差越大，说明模型还不能很好的处理该样本，在新样本覆盖时，应该避开对此样本的覆盖替换，δ_i定义如下

其中，R_t表示在第t步获得的回报，s_t是第t步所处的状态，a_t是在第t步选择的动作，γ_t是回报衰减率，代表一条路径上后面的回报对前面动作选择的影响；

表示t时刻的(s,a)下的Q值，Q(s_t-1，a_t-1)表示t-1时刻的Q值，两者相减就是一条样本用在模型上产生的误差(δ)；

所述公式(3)是在机器学习和深度学习学习领域广泛使用的激活函数，能够将一个序列转化成对应的概率值。

所述公式(4)表示样本i参与训练后差生的误差，通过上面的定义可见，样本被抽取用来训练的优先级跟该样本在进行模型学习时产生的误差呈正相关，误差越大，说明目前的网络接收的该类样本比较少，还不能对该类样本进行很好的预测，反之，被接受的多的类型样本，误差就会小，相应的此类样本可以在新样本存入时被覆盖。

并且，在参数更新时，按式(5)所示根据式(4)所得权重对进行参数更新，更好的利用了高优先级的样本。

Dueling DQN是DQN的一种改进，Dueling DQN将Q值分成了Value和Advantage两部分，其中Value表示当前状态的重要程度，Advantage则对应每个动作各有一个值，最终

本文实验证明，Dueling DQN的这种设计有助于长回合场景下的动作选择，在复杂环境的路径规划应用中有较好的表现，模型的参数配置是保证本申请得以实现的关键所在，通过多次试验采用下述最优参数配置，最终DPES Dueling DQN的处理流程的伪代码如下所示：

进一步的，所述网络模型具体，对于模型的核心网络，设计的层数、节点越少，则网络无法完成对复杂环境的全局收敛；设计的层数、节点过多，则可能会产生过拟合，且十分耗费计算资源。经过多次试验测试，最终设定网络结构如图2所示，为3x300节点的全连接层，以tanh作为激活函数，设定学习率为10-4，采用批量梯度下降的方式进行学习，设定批量的规格为256，Q_target每2000步与Q_eval同步参数；设定记忆库的规模为50000，记忆库中存储数据到达10000条时开始进行模型的学习；

在强化学习部分，∈采用动态设计，设定初值∈₀＝0.1，在模型开始学习后以10^-6的步进开始增加，至达到上限0.9时截止。设定衰减率γ＝0.99。

进一步的，强化学习通过环境中不同场景下的回报进行模型的学习，因此环境的回报配置对于模型能否收敛来说十分重要，基于先验知识和实验测试，所述回报配置包括如下配置：

a)单步回报

由于环境中发生了险情，对于智能体(逃生人群)来说，每多走一步，就会增加一分危险，因此设定r_step＝-1；这样的设定也会使得智能体会选择出一条最佳回合回报的路径；

b)越界、碰壁回报

如果智能体在墙体边缘选择了“撞墙”的动作，这是一步无意义的动作，因此应当为此类动作设定一个负值回报r_wall＝-1；

c)险地回报

智能体踏入险地即死亡，回合结束，因此险地的回报应该为全局最小值。同时为了保证智能体能通过险地之间的过道，险地的设定值不应该太小，经过多次试验最终设定r_danger＝-3；

d)安全出口回报

安全出口处是路径规划任务的最终目标，因此应给予全局最大的正值回报。安全出口的回报应该能保证即使长路程的安全逃生回合的总回报大于段路程的死亡回合的总回报，在本实验中，设定其回报为r_target＝200。

综上，智能体获得的回报定义如下式所示：

其中，Reward表示智能体获得的回报，r_target表示安全出口回报值，r_danger表示险地回报值，r_step表示单步回报值，r_wall表示越界或碰壁回报值，S_target表示目标状态空间(即安全出口)，S_danger表示危险状态空间，s表示当前状态，s'表示下一状态。

具体的，本实施例中所采用的硬件设备环境为：软件环境为Ubuntu18.04，内存24G，显卡为GTX1060，显存6G，采用Pytorch的深度学习框架。

实施例二：

本实施例的目的是提供了一种基于深度强化学习的人群疏散仿真系统。

一种基于深度强化学习的人群疏散仿真系统，包括：

场景构建模块，其用于建立场景模型，初始化场景模型中的墙体、智能体，危险区域、危险区域以及安全出口如图6所示；

进一步的，所述路径规划系统还包括：

路径展示模块如图7所示，其用于所述最佳逃生路径通过指示箭头的方法进行可视化展示。

实施例三：

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

建立场景模型，初始化场景模型中的墙体、智能体、危险区域以及安全出口；

构建深度强化学习网络模型；

实施例四：

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤，包括：

建立场景模型，初始化场景模型中的墙体、智能体、危险区域、危险区域以及安全出口；

构建深度强化学习网络模型；

上述实施例提供的一种基于深度强化学习的人群疏散仿真方法及系统完全可以实现，具有广阔应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于深度强化学习的人群疏散仿真方法，其特征在于，包括：

建立场景模型，初始化场景模型中的墙体、智能体危险区域、危险区域以及安全出口；

构建深度强化学习网络模型；

2.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述深度强化学习网络模型采用DPES-Dueling-DQN网络模型，所述DQN采用离线学习的机制，先将采集的数据样本存入记忆库，由于记忆库存满之后，新产生的数据将会从头开始覆盖存储，故通过对记忆库中的样本进行优先级定义，并采用PES算法根据优先级对样本进行有选择的替换。

3.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述环境回报配置设置有单步回报、越界回报、碰壁回报、险地回报、危险区域以及安全出口回报。

4.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述单步回报表示为，当环境中出现险情时，使智能体出一条最佳回合回报的路径；所述越界回报和碰壁回报表示为，当智能体在墙体边缘选择撞墙动作，设定此类动作为负值回报；所述险地回报表示为，智能体踏入险地即死亡，回合结束，故将险地回报设定为全局最小值；所述安全出口回报表示为，安全出口为路径规划任务的最终目标，故赋予其全局最大正值回报。

5.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述智能体获得的回报定义如下：

其中，Reward表示智能体获得的回报，r_target表示安全出口回报值，r_danger表示险地回报值，r_step表示单步回报值，r_wall表示越界或碰壁回报值，S_target表示目标状态空间，S_danger表示危险状态空间，s表示当前状态，s'表示下一状态。

6.如权利要求1所述的一种基于深度强化学习的人群疏散仿真方法，其特征在于，所述最佳逃生路径通过指示箭头的方法进行可视化展示。

7.一种基于深度强化学习的人群疏散仿真系统，其特征在于，包括：

场景构建模块，其用于建立场景模型，初始化场景模型中的墙体、智能体危险区域、危险区域以及安全出口；

8.如权利要求7所述的一种基于深度强化学习的人群疏散仿真系统，其特征在于，所述路径规划系统还包括：

路径展示模块，其用于所述最佳逃生路径通过指示箭头的方法进行可视化展示。

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述的一种基于深度强化学习的人群疏散仿真方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的一种基于深度强化学习的人群疏散仿真方法。