CN107464021B

CN107464021B - 一种基于强化学习的人群疏散仿真方法、装置

Info

Publication number: CN107464021B
Application number: CN201710666611.3A
Authority: CN
Inventors: 刘弘; 刘宝玺; 张�浩; 秦欣
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2019-07-23
Anticipated expiration: 2037-08-07
Also published as: CN107464021A

Abstract

本发明涉及一种基于强化学习的人群疏散仿真方法、装置，方法包括获取指定区域的视频录像，利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置；将所述人群疏散路径按照以点带线的方式进行存储；根据所述初始坐标，对人群进行分组，选取组内最靠近出口位置的行人作为组内引领者；各引领者选择最佳出口作为疏散目标，利用强化学习算法在所述人群疏散路径中选择最佳疏散路径，引领者带领组内普通行人按照最佳疏散路径运动；保存各组最佳疏散路径，作为疏散演练的推荐路径。

Description

一种基于强化学习的人群疏散仿真方法、装置

技术领域

本发明涉及人群疏散计算机仿真领域，具体是一种基于强化学习的人群疏散仿真方法、装置。

背景技术

随着我国经济的快速发展，人们生活水平得到快速提高，人们出行也愈加频繁，特别是在人群分布密集的公共场所，例如火车站、广场、购物中心等，短时间内人流量巨大，人群内微小的扰动都会对人群的快速疏散造成很大影响，安全隐患较大，如果不能对人群进行有效的控制，很容易导致人群拥挤踩踏事件。而且研究还表明，一旦发生火灾、地震等紧急事件，如果没有合理的引导，人群会陷入极度恐慌，并且受就近心理的影响，人群往往无法有效的利用建筑物的多个出口合理的疏散，从而造成更为严重的拥堵踩踏。因此，通过模拟真实的人群疏散情况，为特定建筑内的行人提供合理的疏散方案，制定最佳的疏散路径减少疏散时间，从而提前规避潜在的人群拥堵踩踏风险，就具有重要意义。针对以上问题，现阶段的主要预防手段有：1、采用人工疏散演习，这种方法需要花费巨大的人力、财力，成本高而且人群覆盖率低，已经无法适用于现代复杂的建筑环境。2、利用计算机仿真技术，计算机仿真技术能够安全有效的对复杂条件下的运动过程进行可视化、重复性的模拟，克服了真人疏散演练的不足，而且疏散成本较低，因此该技术逐渐运用到行人疏散理论的科学研究。在目前较为常见的计算机仿真模型中，宏观模型将人群看做一个整体，虽然仿真疏散速度快，但是却忽略了行人内部的差异性，因而疏散效果并不理想，微观模型虽然个体独立，但是个体运动仅按照模型定义的规则，缺乏宏观上的目标选择和路径导航，且要为每个疏散个体都作全局运动规划，计算开销太大，往往只能用于处理较小规模的群体，在实时计算环境中很难应用。因此，现有的疏散模型并没有很好的利用真实的疏散去指导仿真。

社会力模型是Helbing等人于1995年提出的一个新的行人流模型，在社会力模型中将行人运动描述为力作用的结果，行人运动由自身驱动力、个体间交互力、个体与环境间交互力共同驱动。其中，自身驱动力描述个体向目标运动的期望；个体间交互力反映个体对他人的心理排斥及物理排斥，使个体之间保持一定距离，实现行人运动的碰撞避免；个体与环境间交互力保证个体与障碍物间的安全距离，使行人运动过程中平滑的规避障碍物。

发明内容

针对现有技术中存在的不足，本发明提出了一种基于强化学习的人群疏散仿真方法，能够给人群提供疏散路径指导，提高疏散效率。

本发明的技术方案为：

一种基于强化学习的人群疏散路径仿真方法，其特征在于，包括以下步骤：

获取指定区域的视频录像，利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置；

将所述人群疏散路径按照以点带线的方式进行存储；

根据所述初始坐标，对人群进行分组，选取组内最靠近出口位置的行人作为组内引领者；

各引领者选择最佳出口作为疏散目标，利用强化学习算法在所述人群疏散路径中选择最佳疏散路径，引领者带领组内普通行人按照最佳疏散路径运动；保存各组最佳疏散路径，作为疏散演练的推荐路径。

其中，组内普通行人按照社会力模型做跟随运动。

若引领者安全到达出口，则重新选取组内引领者，直至各组中已无个体可选，代表组中全部个体已经成功疏散。

进一步的，对从所述视频录像中提取的人群疏散路径作预处理：

将指定区域进行网格划分，利用划分好的网格对所提取的人群疏散路径进行合并、去重，构建出指定区域内的疏散路径网，合并后的人群疏散路径以点序列的形式存储至路径知识库中备用。

进一步的，所述利用强化学习算法在人群疏散路径中选择最佳疏散路径包括：

计算所有和引领者当前位置连通的下一个点的收益值，并选取收益值最大的点作为目标点，该目标点与引领者当前位置的连线即为最佳疏散路径。

进一步的，所述计算所有和引领者当前位置连通的下一个点的收益值，并选取收益值最大的点作为目标点包括：

计算引领者当前位置与目标点之间的距离，将此距离作为强化学习状态值s；

引领者根据当前位置，在动作方向a中选择，所述a包括上、下、左、右、左上、左下、右上和右下，若引领者选择动作方向a使得强化学习状态值s减少，既缩短了到达目标的距离，则更新该点的收益值Q(a,s_i+1)＝Q(a,s_i)+1；若引领者选择动作方向a后，增大了到达目标的距离，则更新Q(a,s_i+1)＝Q(a,s_i)-1。

进一步的，引领者根据当前位置，在动作方向a中依据概率函数进行选择。

进一步的，所述各引领者选择最佳出口作为疏散目标包括：引领者根据距离各个出口位置的距离和各个出口的拥挤度，选择最佳出口作为疏散目标。

进一步的，在以出口位置为中心，设定区域内设置计数器，根据计数器的结果与设定区域的面积，计算各个出口的拥挤度。

进一步的，设置拥挤度阈值，当出口拥挤度大于所述拥挤度阈值时，认为出口发生了拥堵；设置出口疏散效率为v_γ,表示出口每秒能通过v_γ个人；设置个体疏散的速度为v₀，表示个体每秒行走v₀米；

当出口的拥挤度大于拥挤度阈值时，则计算出口疏散预计花费时间t₁＝p_i(t)/v_γ,其中P_i(t)为出口在设定时刻、设定面积内的个体数；

当出口的拥挤度不大于拥挤度阈值时，则选择出口疏散预计花费时间t₂＝Dis_i/v₀，其中Dis_i为引领个体到出口的距离，t₂表示引领个体正常运动到出口的时间；

计算所有出口的疏散预计花费时间并进行比较，选择最短花费时间的出口作为疏散目标。

本发明还提出了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由处理器加载并执行以下处理：

将所述人群疏散路径按照以点带线的方式进行存储；

本发明又提出了一种基于强化学习的人群疏散路径仿真装置，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下处理：

将所述人群疏散路径按照以点带线的方式进行存储；

本发明的有益效果：

(1)本发明所推荐的人群疏散路径来源于真实的疏散视频。模型首先利用了KLT算法从视频中提取了人群运动的路径轨迹，在经过去重、坐标转换后，路径轨迹被到社会力模型中指导人群的疏散。与普通的疏散模型相比较，该发明由于引入了真实的视频数据，因此疏散仿真更真实。

(2)本发明在疏散过程中，对于目标选择充分考虑到了拥挤度和距离的因素，避免了距离近的出口人群大量拥堵，而距离稍远的出口没有充分利用的情况。通过划分群组和选取引领，同组内的路径规划只对引领者实施，组内普通行人则只是跟随引领者，从而大大减少了计算量。

(3)本发明采用强化学习算法为组内引领者挑选最佳疏散路径。为了克服强化学习频繁试错的缺点，本发明提前建立了疏散路径知识库，并将引领者与疏散目标位置之间的实际路径长度量化成强化学习中的状态函数，并通过前后状态的比较,使得每次状态-动作对的选择都能缩短到达目标位置的距离。

(4)在熟悉场景的导航的引导下分组疏散，能够有效提高公共场所中通道的利用率以及危机情况下的人员安全性，有利于设计疏散预案，为真实的疏散演练提供帮助。

附图说明

图1是本发明人群疏散方法的流程图；

图2是强化学习基本结构示意图；

图3是某学校教室内人群疏散示意图；

图4是某学校走廊内人群疏散示意图；

图5是利用KLT追踪算法提取视频内人群运动轨迹的示意图；

图6是利用网格合并简化后的人群运动路径示意图；

图7是仿真实验中人群疏散的初始化示意图；

图8是人群分组后引领个体选择疏散目标，并向出口移动的示意图；

图9是在引领个体执行增强学习算法，组内个体跟随引领接近出口的示意图；

图10是在疏散结束时刻示意图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

强化学习是一种实时的学习方法，它采用试错法，不需要建立环境和任务的精确数据描述，通过学习智能体就能够从系统状态、动作、奖励的有用信息中掌握一套优化策略和知识，强化学习作为记忆和搜索的结合，强调在与环境的交互中利用评价反馈将“状态-行为对”作为经验进行积累和存储，通过这种记忆存储可以知道在过去环境中哪个动作行为是最好的，将强化学习引入人群疏散仿真系统的好处在于:面对特定的环境，在经过训练学习之后，行人可以直接从强化学习获得的经验中找到一条最佳疏散路径，从而避免了重复计算，加快人群疏散。

为了能够给人群提供疏散路径指导，提高疏散效率，本发明为了改进传统疏散模型，提出了一种基于强化学习的人群疏散路径仿真方法。该方法分为上下两层，上层为预处理层，首先收集真实场景中人群疏散的录像，通过KLT视频数据提取技术提取出录像中的人群疏散路径，同时将待疏散场景进行网格划分，利用划分好的网格将提取出的人物运动轨迹作进行合并、去重，最后将处理好的人物运动路径作为疏散的引导知识存储到知识库中备用。下层为仿真疏散层，首先将待疏散人群进行分组并选取出组内的引领者，引领者依据各个出口的拥挤度和距离出口的距离先选出最佳出口，然后依靠强化学习算法从路径知识库中选取最佳路径为引领者提取路径导航，组内的普通行人则执行社会力算法跟随引领者完成疏散。由于仿真疏散的初始化设置和强化学习的疏散引领路径来源于真实的视频，而且把引领者作为群组代表选择路径大大减少了计算复杂度，引领者选择出口又充分考虑到了拥挤度、距离等因素，因此最终获得的人群疏散路径能够显著提高疏散效率，为疏散演练提供帮助。

具体的，本方法包括以下步骤：

(1)获取指定区域的视频录像，利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置。

(2)将指定区域进行网格划分，利用划分好的网格对所提取的人群疏散路径进行合并、去重，构建出指定区域内的疏散路径网，合并后的路径以点序列的形式存储至路径知识库中备用。

(3)根据初始坐标对人群进行分组，并且选取组内最靠近出口的行人作为组内引领者。

(4)各个引领者选择一个最佳出口作为疏散目标。

(5)各个引领者根据选择好的疏散目标，执行增强学习算法选择疏散路径。

(6)组内普通行人执行社会力算法跟随引领者运动。

(7)引领者重复执行步骤6，若引领者安全到达出口，则重新选取组内引领者，返回步骤4，直至各组中已无个体可选(组中全部个体已经成功疏散)。

(8)保存各组引领者疏散路径，作为疏散演练的推荐路径。

步骤(4)中，各个引领者选择一个最佳出口作为疏散目标具体包括：

出口的拥挤度通过计算得出，拥挤度λ_i＝P_i/S_i，其中P_i是出口i处的计数器记录的拥堵人数，S_i为出口拥塞面积。

设置出口位置拥挤度阈值为γ，当出口拥挤度大于γ我们认为出口发生了严重拥堵；设置出口疏散效率为v_γ,表示出口每秒能通过v_γ个人；设置个体疏散的速度为v₀，表示个体每秒行走v₀米。

当出口i的拥挤度λ_i大于阈值γ时，则选择出口i疏散需要花费的时间t₁＝p_i/v_γ,既要等所有拥堵的粒子疏散完毕的时间。当出口i的拥挤度λ_i小于阈值γ时，则选择出口i疏散需要花费的时间t₂＝Dis_i/v₀，其中Dis_i为粒子到出口i的距离，t₂表示粒子正常运动到出口i的时间。最终选择出口i的疏散时间花费，应该是t＝min(t₁,t₂)

引领者计算所有出口的预计花费时间并进行比较，选择时间花费最短的出口作为目标点。

步骤(5)中，各个引领者根据选择好的疏散目标，执行增强学习算法选择疏散路径，具体如下：计算所有和当前位置联通的下一个目标点的收益，并选取收益最大的点作为目标，同时更新收益存储表。

对于某一个引领者，设置强化学习目标点为(x_goal,y_goal)，引领者当前位置为(x_now,y_now)，则引领者运动到目标点的距离L为L既量化后的强化学习状态值s，n为粒子从当前位置运动到目标位置路径上关键点的个数。

引领者根据当前位置，可以选择八个不同的动作方向a，分别上(x_i,y_i+1)、下(x_i,y_i-1)、左(x_i-1,y_i)、右(x_i+1,y)，左上(x_i-1,y_i+1)、左下(x_i-1,y_i-1)、右上(x_i+1,y_i+1)、右下(x_i+1,y_i-1)，引领者具体选择那个动作方向运动，则根据概率选择。

定义好强化学习状态s，以及动作a后，则初始化所有Q(a,s)＝0，表示初始状态下所有动作收益都为0。

设置引领者动作方向选择概率函数为：其中Q(a,s)为引领者选择动作a的收益值，(特别的，若出现方向选择概率相同情况，则随机选择移动方向)。若引领者选择动作a使得强化学习状态值s减少，既缩短了到达目标的距离L，则更新若引领者选择动作a后，增大了到达目标的距离，则更新Q(a,s_i+1)＝Q(a,s_i)-1。

最后，引领者根据上述规则标逐步向目标点靠近，同组内普通粒子执行社会力算法跟随引领者运动，最终完成仿真疏散。

下面提供一个仿真实施例：

由300个待疏散个体在300*150的教学区域上进行人群疏散仿真模拟，如图2-图10所示。图2是强化学习基本结构示意图；图3是某学校教室内人群疏散录像截图；图4是某学校走廊内人群疏散录像截图；图5是利用KLT追踪算法提取视频内人群运动轨迹的示意图；图6是利用网格合并简化后的人群运动路径示意图；图7是仿真实验中人群疏散的初始化示意图；图8是人群分组后引领个体选择疏散目标，并向出口移动的示意图；图9是在引领个体执行增强学习算法，组内个体跟随引领接近出口的示意图；图10是在疏散结束时刻示意图。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于强化学习的人群疏散路径推荐方法，其特征在于，包括以下步骤：

将指定区域进行网格划分，利用划分好的网格对所提取的人群疏散路径进行合并、去重，构建出指定区域内的疏散路径网，合并后的人群疏散路径以点序列的形式存储至路径知识库中备用；

将所述人群疏散路径按照以点带线的方式进行存储；

各引领者选择最佳出口作为疏散目标，利用强化学习算法在所述人群疏散路径中选择最佳疏散路径，引领者带领组内普通行人按照最佳疏散路径运动；保存各组最佳疏散路径，作为疏散演练的推荐路径；

所述利用强化学习算法在人群疏散路径中选择最佳疏散路径包括：

计算所有和引领者当前位置连通的下一个点的收益值，并选取收益值最大的点作为目标点，该目标点与引领者当前位置的连线即为最佳疏散路径；

所述计算所有和引领者当前位置连通的下一个点的收益值，并选取收益值最大的点作为目标点包括：

引领者根据当前位置，在动作方向a中选择，所述a包括上、下、左、右、左上、左下、右上和右下，若引领者选择动作方向a使得强化学习状态值s减少，既缩短了到达目标的距离，则更新该点的收益值Q(a,s_i+1)＝Q(a,s_i)+1；若引领者选择动作方向a后，增大了到达目标的距离，则更新Q(a,s_i+1)＝Q(a,s_i)-1；

所述各引领者选择最佳出口作为疏散目标包括：引领者根据距离各个出口位置的距离和各个出口的拥挤度，选择最佳出口作为疏散目标；

在以出口位置为中心，设定区域内设置计数器，根据计数器的结果与设定区域的面积，计算各个出口的拥挤度；

设置拥挤度阈值，当出口拥挤度大于所述拥挤度阈值时，认为出口发生了拥堵；设置出口疏散效率为v_γ,表示出口每秒能通过v_γ个人；设置个体疏散的速度为v₀，表示个体每秒行走v₀米；

2.根据权利要求1所述的方法，其特征在于：引领者根据当前位置，在动作方向a中依据概率函数进行选择。

3.一种计算机可读存储介质，其中存储有多条指令，其特征在于：所述指令适于由处理器加载并执行以下处理：

将所述人群疏散路径按照以点带线的方式进行存储；

4.一种基于强化学习的人群疏散路径推荐装置，其特征在于：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下处理：

将所述人群疏散路径按照以点带线的方式进行存储；