CN107464021B - 一种基于强化学习的人群疏散仿真方法、装置 - Google Patents

一种基于强化学习的人群疏散仿真方法、装置 Download PDF

Info

Publication number
CN107464021B
CN107464021B CN201710666611.3A CN201710666611A CN107464021B CN 107464021 B CN107464021 B CN 107464021B CN 201710666611 A CN201710666611 A CN 201710666611A CN 107464021 B CN107464021 B CN 107464021B
Authority
CN
China
Prior art keywords
evacuation
outlet
leader
path
crowd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710666611.3A
Other languages
English (en)
Other versions
CN107464021A (zh
Inventor
刘弘
刘宝玺
张�浩
秦欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201710666611.3A priority Critical patent/CN107464021B/zh
Publication of CN107464021A publication Critical patent/CN107464021A/zh
Application granted granted Critical
Publication of CN107464021B publication Critical patent/CN107464021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Alarm Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于强化学习的人群疏散仿真方法、装置,方法包括获取指定区域的视频录像,利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置;将所述人群疏散路径按照以点带线的方式进行存储;根据所述初始坐标,对人群进行分组,选取组内最靠近出口位置的行人作为组内引领者;各引领者选择最佳出口作为疏散目标,利用强化学习算法在所述人群疏散路径中选择最佳疏散路径,引领者带领组内普通行人按照最佳疏散路径运动;保存各组最佳疏散路径,作为疏散演练的推荐路径。

Description

一种基于强化学习的人群疏散仿真方法、装置
技术领域
本发明涉及人群疏散计算机仿真领域,具体是一种基于强化学习的人群疏散仿真方法、装置。
背景技术
随着我国经济的快速发展,人们生活水平得到快速提高,人们出行也愈加频繁,特别是在人群分布密集的公共场所,例如火车站、广场、购物中心等,短时间内人流量巨大,人群内微小的扰动都会对人群的快速疏散造成很大影响,安全隐患较大,如果不能对人群进行有效的控制,很容易导致人群拥挤踩踏事件。而且研究还表明,一旦发生火灾、地震等紧急事件,如果没有合理的引导,人群会陷入极度恐慌,并且受就近心理的影响,人群往往无法有效的利用建筑物的多个出口合理的疏散,从而造成更为严重的拥堵踩踏。因此,通过模拟真实的人群疏散情况,为特定建筑内的行人提供合理的疏散方案,制定最佳的疏散路径减少疏散时间,从而提前规避潜在的人群拥堵踩踏风险,就具有重要意义。针对以上问题,现阶段的主要预防手段有:1、采用人工疏散演习,这种方法需要花费巨大的人力、财力,成本高而且人群覆盖率低,已经无法适用于现代复杂的建筑环境。2、利用计算机仿真技术,计算机仿真技术能够安全有效的对复杂条件下的运动过程进行可视化、重复性的模拟,克服了真人疏散演练的不足,而且疏散成本较低,因此该技术逐渐运用到行人疏散理论的科学研究。在目前较为常见的计算机仿真模型中,宏观模型将人群看做一个整体,虽然仿真疏散速度快,但是却忽略了行人内部的差异性,因而疏散效果并不理想,微观模型虽然个体独立,但是个体运动仅按照模型定义的规则,缺乏宏观上的目标选择和路径导航,且要为每个疏散个体都作全局运动规划,计算开销太大,往往只能用于处理较小规模的群体,在实时计算环境中很难应用。因此,现有的疏散模型并没有很好的利用真实的疏散去指导仿真。
社会力模型是Helbing等人于1995年提出的一个新的行人流模型,在社会力模型中将行人运动描述为力作用的结果,行人运动由自身驱动力、个体间交互力、个体与环境间交互力共同驱动。其中,自身驱动力描述个体向目标运动的期望;个体间交互力反映个体对他人的心理排斥及物理排斥,使个体之间保持一定距离,实现行人运动的碰撞避免;个体与环境间交互力保证个体与障碍物间的安全距离,使行人运动过程中平滑的规避障碍物。
发明内容
针对现有技术中存在的不足,本发明提出了一种基于强化学习的人群疏散仿真方法,能够给人群提供疏散路径指导,提高疏散效率。
本发明的技术方案为:
一种基于强化学习的人群疏散路径仿真方法,其特征在于,包括以下步骤:
获取指定区域的视频录像,利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置;
将所述人群疏散路径按照以点带线的方式进行存储;
根据所述初始坐标,对人群进行分组,选取组内最靠近出口位置的行人作为组内引领者;
各引领者选择最佳出口作为疏散目标,利用强化学习算法在所述人群疏散路径中选择最佳疏散路径,引领者带领组内普通行人按照最佳疏散路径运动;保存各组最佳疏散路径,作为疏散演练的推荐路径。
其中,组内普通行人按照社会力模型做跟随运动。
若引领者安全到达出口,则重新选取组内引领者,直至各组中已无个体可选,代表组中全部个体已经成功疏散。
进一步的,对从所述视频录像中提取的人群疏散路径作预处理:
将指定区域进行网格划分,利用划分好的网格对所提取的人群疏散路径进行合并、去重,构建出指定区域内的疏散路径网,合并后的人群疏散路径以点序列的形式存储至路径知识库中备用。
进一步的,所述利用强化学习算法在人群疏散路径中选择最佳疏散路径包括:
计算所有和引领者当前位置连通的下一个点的收益值,并选取收益值最大的点作为目标点,该目标点与引领者当前位置的连线即为最佳疏散路径。
进一步的,所述计算所有和引领者当前位置连通的下一个点的收益值,并选取收益值最大的点作为目标点包括:
计算引领者当前位置与目标点之间的距离,将此距离作为强化学习状态值s;
引领者根据当前位置,在动作方向a中选择,所述a包括上、下、左、右、左上、左下、右上和右下,若引领者选择动作方向a使得强化学习状态值s减少,既缩短了到达目标的距离,则更新该点的收益值Q(a,si+1)=Q(a,si)+1;若引领者选择动作方向a后,增大了到达目标的距离,则更新Q(a,si+1)=Q(a,si)-1。
进一步的,引领者根据当前位置,在动作方向a中依据概率函数进行选择。
进一步的,所述各引领者选择最佳出口作为疏散目标包括:引领者根据距离各个出口位置的距离和各个出口的拥挤度,选择最佳出口作为疏散目标。
进一步的,在以出口位置为中心,设定区域内设置计数器,根据计数器的结果与设定区域的面积,计算各个出口的拥挤度。
进一步的,设置拥挤度阈值,当出口拥挤度大于所述拥挤度阈值时,认为出口发生了拥堵;设置出口疏散效率为vγ,表示出口每秒能通过vγ个人;设置个体疏散的速度为v0,表示个体每秒行走v0米;
当出口的拥挤度大于拥挤度阈值时,则计算出口疏散预计花费时间t1=pi(t)/vγ,其中Pi(t)为出口在设定时刻、设定面积内的个体数;
当出口的拥挤度不大于拥挤度阈值时,则选择出口疏散预计花费时间t2=Disi/v0,其中Disi为引领个体到出口的距离,t2表示引领个体正常运动到出口的时间;
计算所有出口的疏散预计花费时间并进行比较,选择最短花费时间的出口作为疏散目标。
本发明还提出了一种计算机可读存储介质,其中存储有多条指令,所述指令适于由处理器加载并执行以下处理:
获取指定区域的视频录像,利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置;
将所述人群疏散路径按照以点带线的方式进行存储;
根据所述初始坐标,对人群进行分组,选取组内最靠近出口位置的行人作为组内引领者;
各引领者选择最佳出口作为疏散目标,利用强化学习算法在所述人群疏散路径中选择最佳疏散路径,引领者带领组内普通行人按照最佳疏散路径运动;保存各组最佳疏散路径,作为疏散演练的推荐路径。
本发明又提出了一种基于强化学习的人群疏散路径仿真装置,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
获取指定区域的视频录像,利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置;
将所述人群疏散路径按照以点带线的方式进行存储;
根据所述初始坐标,对人群进行分组,选取组内最靠近出口位置的行人作为组内引领者;
各引领者选择最佳出口作为疏散目标,利用强化学习算法在所述人群疏散路径中选择最佳疏散路径,引领者带领组内普通行人按照最佳疏散路径运动;保存各组最佳疏散路径,作为疏散演练的推荐路径。
本发明的有益效果:
(1)本发明所推荐的人群疏散路径来源于真实的疏散视频。模型首先利用了KLT算法从视频中提取了人群运动的路径轨迹,在经过去重、坐标转换后,路径轨迹被到社会力模型中指导人群的疏散。与普通的疏散模型相比较,该发明由于引入了真实的视频数据,因此疏散仿真更真实。
(2)本发明在疏散过程中,对于目标选择充分考虑到了拥挤度和距离的因素,避免了距离近的出口人群大量拥堵,而距离稍远的出口没有充分利用的情况。通过划分群组和选取引领,同组内的路径规划只对引领者实施,组内普通行人则只是跟随引领者,从而大大减少了计算量。
(3)本发明采用强化学习算法为组内引领者挑选最佳疏散路径。为了克服强化学习频繁试错的缺点,本发明提前建立了疏散路径知识库,并将引领者与疏散目标位置之间的实际路径长度量化成强化学习中的状态函数,并通过前后状态的比较,使得每次状态-动作对的选择都能缩短到达目标位置的距离。
(4)在熟悉场景的导航的引导下分组疏散,能够有效提高公共场所中通道的利用率以及危机情况下的人员安全性,有利于设计疏散预案,为真实的疏散演练提供帮助。
附图说明
图1是本发明人群疏散方法的流程图;
图2是强化学习基本结构示意图;
图3是某学校教室内人群疏散示意图;
图4是某学校走廊内人群疏散示意图;
图5是利用KLT追踪算法提取视频内人群运动轨迹的示意图;
图6是利用网格合并简化后的人群运动路径示意图;
图7是仿真实验中人群疏散的初始化示意图;
图8是人群分组后引领个体选择疏散目标,并向出口移动的示意图;
图9是在引领个体执行增强学习算法,组内个体跟随引领接近出口的示意图;
图10是在疏散结束时刻示意图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明:
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
强化学习是一种实时的学习方法,它采用试错法,不需要建立环境和任务的精确数据描述,通过学习智能体就能够从系统状态、动作、奖励的有用信息中掌握一套优化策略和知识,强化学习作为记忆和搜索的结合,强调在与环境的交互中利用评价反馈将“状态-行为对”作为经验进行积累和存储,通过这种记忆存储可以知道在过去环境中哪个动作行为是最好的,将强化学习引入人群疏散仿真系统的好处在于:面对特定的环境,在经过训练学习之后,行人可以直接从强化学习获得的经验中找到一条最佳疏散路径,从而避免了重复计算,加快人群疏散。
为了能够给人群提供疏散路径指导,提高疏散效率,本发明为了改进传统疏散模型,提出了一种基于强化学习的人群疏散路径仿真方法。该方法分为上下两层,上层为预处理层,首先收集真实场景中人群疏散的录像,通过KLT视频数据提取技术提取出录像中的人群疏散路径,同时将待疏散场景进行网格划分,利用划分好的网格将提取出的人物运动轨迹作进行合并、去重,最后将处理好的人物运动路径作为疏散的引导知识存储到知识库中备用。下层为仿真疏散层,首先将待疏散人群进行分组并选取出组内的引领者,引领者依据各个出口的拥挤度和距离出口的距离先选出最佳出口,然后依靠强化学习算法从路径知识库中选取最佳路径为引领者提取路径导航,组内的普通行人则执行社会力算法跟随引领者完成疏散。由于仿真疏散的初始化设置和强化学习的疏散引领路径来源于真实的视频,而且把引领者作为群组代表选择路径大大减少了计算复杂度,引领者选择出口又充分考虑到了拥挤度、距离等因素,因此最终获得的人群疏散路径能够显著提高疏散效率,为疏散演练提供帮助。
具体的,本方法包括以下步骤:
(1)获取指定区域的视频录像,利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置。
(2)将指定区域进行网格划分,利用划分好的网格对所提取的人群疏散路径进行合并、去重,构建出指定区域内的疏散路径网,合并后的路径以点序列的形式存储至路径知识库中备用。
(3)根据初始坐标对人群进行分组,并且选取组内最靠近出口的行人作为组内引领者。
(4)各个引领者选择一个最佳出口作为疏散目标。
(5)各个引领者根据选择好的疏散目标,执行增强学习算法选择疏散路径。
(6)组内普通行人执行社会力算法跟随引领者运动。
(7)引领者重复执行步骤6,若引领者安全到达出口,则重新选取组内引领者,返回步骤4,直至各组中已无个体可选(组中全部个体已经成功疏散)。
(8)保存各组引领者疏散路径,作为疏散演练的推荐路径。
步骤(4)中,各个引领者选择一个最佳出口作为疏散目标具体包括:
出口的拥挤度通过计算得出,拥挤度λi=Pi/Si,其中Pi是出口i处的计数器记录的拥堵人数,Si为出口拥塞面积。
设置出口位置拥挤度阈值为γ,当出口拥挤度大于γ我们认为出口发生了严重拥堵;设置出口疏散效率为vγ,表示出口每秒能通过vγ个人;设置个体疏散的速度为v0,表示个体每秒行走v0米。
当出口i的拥挤度λi大于阈值γ时,则选择出口i疏散需要花费的时间t1=pi/vγ,既要等所有拥堵的粒子疏散完毕的时间。当出口i的拥挤度λi小于阈值γ时,则选择出口i疏散需要花费的时间t2=Disi/v0,其中Disi为粒子到出口i的距离,t2表示粒子正常运动到出口i的时间。最终选择出口i的疏散时间花费,应该是t=min(t1,t2)
引领者计算所有出口的预计花费时间并进行比较,选择时间花费最短的出口作为目标点。
步骤(5)中,各个引领者根据选择好的疏散目标,执行增强学习算法选择疏散路径,具体如下:计算所有和当前位置联通的下一个目标点的收益,并选取收益最大的点作为目标,同时更新收益存储表。
对于某一个引领者,设置强化学习目标点为(xgoal,ygoal),引领者当前位置为(xnow,ynow),则引领者运动到目标点的距离L为L既量化后的强化学习状态值s,n为粒子从当前位置运动到目标位置路径上关键点的个数。
引领者根据当前位置,可以选择八个不同的动作方向a,分别上(xi,yi+1)、下(xi,yi-1)、左(xi-1,yi)、右(xi+1,y),左上(xi-1,yi+1)、左下(xi-1,yi-1)、右上(xi+1,yi+1)、右下(xi+1,yi-1),引领者具体选择那个动作方向运动,则根据概率选择。
定义好强化学习状态s,以及动作a后,则初始化所有Q(a,s)=0,表示初始状态下所有动作收益都为0。
设置引领者动作方向选择概率函数为:其中Q(a,s)为引领者选择动作a的收益值,(特别的,若出现方向选择概率相同情况,则随机选择移动方向)。若引领者选择动作a使得强化学习状态值s减少,既缩短了到达目标的距离L,则更新若引领者选择动作a后,增大了到达目标的距离,则更新Q(a,si+1)=Q(a,si)-1。
最后,引领者根据上述规则标逐步向目标点靠近,同组内普通粒子执行社会力算法跟随引领者运动,最终完成仿真疏散。
下面提供一个仿真实施例:
由300个待疏散个体在300*150的教学区域上进行人群疏散仿真模拟,如图2-图10所示。图2是强化学习基本结构示意图;图3是某学校教室内人群疏散录像截图;图4是某学校走廊内人群疏散录像截图;图5是利用KLT追踪算法提取视频内人群运动轨迹的示意图;图6是利用网格合并简化后的人群运动路径示意图;图7是仿真实验中人群疏散的初始化示意图;图8是人群分组后引领个体选择疏散目标,并向出口移动的示意图;图9是在引领个体执行增强学习算法,组内个体跟随引领接近出口的示意图;图10是在疏散结束时刻示意图。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (4)

1.一种基于强化学习的人群疏散路径推荐方法,其特征在于,包括以下步骤:
获取指定区域的视频录像,利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置;
将指定区域进行网格划分,利用划分好的网格对所提取的人群疏散路径进行合并、去重,构建出指定区域内的疏散路径网,合并后的人群疏散路径以点序列的形式存储至路径知识库中备用;
将所述人群疏散路径按照以点带线的方式进行存储;
根据所述初始坐标,对人群进行分组,选取组内最靠近出口位置的行人作为组内引领者;
各引领者选择最佳出口作为疏散目标,利用强化学习算法在所述人群疏散路径中选择最佳疏散路径,引领者带领组内普通行人按照最佳疏散路径运动;保存各组最佳疏散路径,作为疏散演练的推荐路径;
所述利用强化学习算法在人群疏散路径中选择最佳疏散路径包括:
计算所有和引领者当前位置连通的下一个点的收益值,并选取收益值最大的点作为目标点,该目标点与引领者当前位置的连线即为最佳疏散路径;
所述计算所有和引领者当前位置连通的下一个点的收益值,并选取收益值最大的点作为目标点包括:
计算引领者当前位置与目标点之间的距离,将此距离作为强化学习状态值s;
引领者根据当前位置,在动作方向a中选择,所述a包括上、下、左、右、左上、左下、右上和右下,若引领者选择动作方向a使得强化学习状态值s减少,既缩短了到达目标的距离,则更新该点的收益值Q(a,si+1)=Q(a,si)+1;若引领者选择动作方向a后,增大了到达目标的距离,则更新Q(a,si+1)=Q(a,si)-1;
所述各引领者选择最佳出口作为疏散目标包括:引领者根据距离各个出口位置的距离和各个出口的拥挤度,选择最佳出口作为疏散目标;
在以出口位置为中心,设定区域内设置计数器,根据计数器的结果与设定区域的面积,计算各个出口的拥挤度;
设置拥挤度阈值,当出口拥挤度大于所述拥挤度阈值时,认为出口发生了拥堵;设置出口疏散效率为vγ,表示出口每秒能通过vγ个人;设置个体疏散的速度为v0,表示个体每秒行走v0米;
当出口的拥挤度大于拥挤度阈值时,则计算出口疏散预计花费时间t1=pi(t)/vγ,其中Pi(t)为出口在设定时刻、设定面积内的个体数;
当出口的拥挤度不大于拥挤度阈值时,则选择出口疏散预计花费时间t2=Disi/v0,其中Disi为引领个体到出口的距离,t2表示引领个体正常运动到出口的时间;
计算所有出口的疏散预计花费时间并进行比较,选择最短花费时间的出口作为疏散目标。
2.根据权利要求1所述的方法,其特征在于:引领者根据当前位置,在动作方向a中依据概率函数进行选择。
3.一种计算机可读存储介质,其中存储有多条指令,其特征在于:所述指令适于由处理器加载并执行以下处理:
获取指定区域的视频录像,利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置;
将指定区域进行网格划分,利用划分好的网格对所提取的人群疏散路径进行合并、去重,构建出指定区域内的疏散路径网,合并后的人群疏散路径以点序列的形式存储至路径知识库中备用;
将所述人群疏散路径按照以点带线的方式进行存储;
根据所述初始坐标,对人群进行分组,选取组内最靠近出口位置的行人作为组内引领者;
各引领者选择最佳出口作为疏散目标,利用强化学习算法在所述人群疏散路径中选择最佳疏散路径,引领者带领组内普通行人按照最佳疏散路径运动;保存各组最佳疏散路径,作为疏散演练的推荐路径;
所述利用强化学习算法在人群疏散路径中选择最佳疏散路径包括:
计算所有和引领者当前位置连通的下一个点的收益值,并选取收益值最大的点作为目标点,该目标点与引领者当前位置的连线即为最佳疏散路径;
所述计算所有和引领者当前位置连通的下一个点的收益值,并选取收益值最大的点作为目标点包括:
计算引领者当前位置与目标点之间的距离,将此距离作为强化学习状态值s;
引领者根据当前位置,在动作方向a中选择,所述a包括上、下、左、右、左上、左下、右上和右下,若引领者选择动作方向a使得强化学习状态值s减少,既缩短了到达目标的距离,则更新该点的收益值Q(a,si+1)=Q(a,si)+1;若引领者选择动作方向a后,增大了到达目标的距离,则更新Q(a,si+1)=Q(a,si)-1;
所述各引领者选择最佳出口作为疏散目标包括:引领者根据距离各个出口位置的距离和各个出口的拥挤度,选择最佳出口作为疏散目标;
在以出口位置为中心,设定区域内设置计数器,根据计数器的结果与设定区域的面积,计算各个出口的拥挤度;
设置拥挤度阈值,当出口拥挤度大于所述拥挤度阈值时,认为出口发生了拥堵;设置出口疏散效率为vγ,表示出口每秒能通过vγ个人;设置个体疏散的速度为v0,表示个体每秒行走v0米;
当出口的拥挤度大于拥挤度阈值时,则计算出口疏散预计花费时间t1=pi(t)/vγ,其中Pi(t)为出口在设定时刻、设定面积内的个体数;
当出口的拥挤度不大于拥挤度阈值时,则选择出口疏散预计花费时间t2=Disi/v0,其中Disi为引领个体到出口的距离,t2表示引领个体正常运动到出口的时间;
计算所有出口的疏散预计花费时间并进行比较,选择最短花费时间的出口作为疏散目标。
4.一种基于强化学习的人群疏散路径推荐装置,其特征在于:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行以下处理:
获取指定区域的视频录像,利用KLT追踪算法从所述视频录像中提取出人群疏散路径、初始坐标、运动速度和出口位置;
将指定区域进行网格划分,利用划分好的网格对所提取的人群疏散路径进行合并、去重,构建出指定区域内的疏散路径网,合并后的人群疏散路径以点序列的形式存储至路径知识库中备用;
将所述人群疏散路径按照以点带线的方式进行存储;
根据所述初始坐标,对人群进行分组,选取组内最靠近出口位置的行人作为组内引领者;
各引领者选择最佳出口作为疏散目标,利用强化学习算法在所述人群疏散路径中选择最佳疏散路径,引领者带领组内普通行人按照最佳疏散路径运动;保存各组最佳疏散路径,作为疏散演练的推荐路径;
所述利用强化学习算法在人群疏散路径中选择最佳疏散路径包括:
计算所有和引领者当前位置连通的下一个点的收益值,并选取收益值最大的点作为目标点,该目标点与引领者当前位置的连线即为最佳疏散路径;
所述计算所有和引领者当前位置连通的下一个点的收益值,并选取收益值最大的点作为目标点包括:
计算引领者当前位置与目标点之间的距离,将此距离作为强化学习状态值s;
引领者根据当前位置,在动作方向a中选择,所述a包括上、下、左、右、左上、左下、右上和右下,若引领者选择动作方向a使得强化学习状态值s减少,既缩短了到达目标的距离,则更新该点的收益值Q(a,si+1)=Q(a,si)+1;若引领者选择动作方向a后,增大了到达目标的距离,则更新Q(a,si+1)=Q(a,si)-1;
所述各引领者选择最佳出口作为疏散目标包括:引领者根据距离各个出口位置的距离和各个出口的拥挤度,选择最佳出口作为疏散目标;
在以出口位置为中心,设定区域内设置计数器,根据计数器的结果与设定区域的面积,计算各个出口的拥挤度;
设置拥挤度阈值,当出口拥挤度大于所述拥挤度阈值时,认为出口发生了拥堵;设置出口疏散效率为vγ,表示出口每秒能通过vγ个人;设置个体疏散的速度为v0,表示个体每秒行走v0米;
当出口的拥挤度大于拥挤度阈值时,则计算出口疏散预计花费时间t1=pi(t)/vγ,其中Pi(t)为出口在设定时刻、设定面积内的个体数;
当出口的拥挤度不大于拥挤度阈值时,则选择出口疏散预计花费时间t2=Disi/v0,其中Disi为引领个体到出口的距离,t2表示引领个体正常运动到出口的时间;
计算所有出口的疏散预计花费时间并进行比较,选择最短花费时间的出口作为疏散目标。
CN201710666611.3A 2017-08-07 2017-08-07 一种基于强化学习的人群疏散仿真方法、装置 Active CN107464021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710666611.3A CN107464021B (zh) 2017-08-07 2017-08-07 一种基于强化学习的人群疏散仿真方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710666611.3A CN107464021B (zh) 2017-08-07 2017-08-07 一种基于强化学习的人群疏散仿真方法、装置

Publications (2)

Publication Number Publication Date
CN107464021A CN107464021A (zh) 2017-12-12
CN107464021B true CN107464021B (zh) 2019-07-23

Family

ID=60547476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710666611.3A Active CN107464021B (zh) 2017-08-07 2017-08-07 一种基于强化学习的人群疏散仿真方法、装置

Country Status (1)

Country Link
CN (1) CN107464021B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256155B (zh) * 2017-12-20 2021-03-26 同济大学 一种丁字路口客车下客点选择方法
CN108491972A (zh) * 2018-03-21 2018-09-04 山东师范大学 一种基于Sarsa算法的人群疏散仿真方法及装置
CN109543285B (zh) * 2018-11-20 2023-05-09 山东师范大学 一种融合数据驱动与强化学习的人群疏散仿真方法和系统
CN109871582A (zh) * 2019-01-11 2019-06-11 山东师范大学 陌生环境中基于知识的人群疏散仿真方法、系统及介质
CN109974737B (zh) * 2019-04-11 2020-01-31 山东师范大学 基于安全疏散标志和强化学习结合的路径规划方法及系统
CN110569872A (zh) * 2019-08-01 2019-12-13 深圳达实智能股份有限公司 室内疏散路径优化方法、装置和电子设备
CN110751017B (zh) * 2019-09-03 2021-03-02 上海交通大学 一种基于强化学习的在线非监督的人群组分割方法及终端
CN110941893A (zh) * 2019-10-25 2020-03-31 中国科学院遥感与数字地球研究所 一种人群模拟中基于目标线的行进目标到达判定方法
CN111047070A (zh) * 2019-10-28 2020-04-21 浙江工业大学 基于移动终端的大型建筑物内行人疏导系统
US11513520B2 (en) * 2019-12-10 2022-11-29 International Business Machines Corporation Formally safe symbolic reinforcement learning on visual inputs
CN112231968A (zh) * 2020-09-09 2021-01-15 山东师范大学 基于深度强化学习算法的人群疏散仿真方法及系统
CN114548497A (zh) * 2022-01-13 2022-05-27 山东师范大学 一种实现场景自适应的人群运动路径规划方法及系统
CN115359568B (zh) * 2022-08-24 2023-06-02 深圳职业技术学院 行人智能体运动与应急疏散的仿真方法及计算机设备
CN115474172B (zh) * 2022-11-14 2023-01-24 成都大学 结合uwb采集的室内密集人流组群行人群体疏散方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227958A (zh) * 2016-07-27 2016-12-14 山东师范大学 人工蜂群与社会力模型结合的群组疏散仿真系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227958A (zh) * 2016-07-27 2016-12-14 山东师范大学 人工蜂群与社会力模型结合的群组疏散仿真系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于人工蜂群算法的疏散运动仿真;张鹏等;《计算机工程》;20130731;第39卷(第7期);216-264,283
融入关系分组的人群运动仿真;柳广鹏等;《小型微型计算机系统》;20160831;第37卷(第8期);1735-1740

Also Published As

Publication number Publication date
CN107464021A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107464021B (zh) 一种基于强化学习的人群疏散仿真方法、装置
CN105740510B (zh) 基于网格-密度-关系的疏散人群行为仿真系统及其方法
CN106205156B (zh) 一种针对部分车道车流突变的交叉口自愈合控制方法
CN109101694B (zh) 一种安全疏散标志引导的人群行为仿真方法及系统
CN106227958B (zh) 人工蜂群与社会力模型结合的群组疏散仿真系统及方法
CN109974737B (zh) 基于安全疏散标志和强化学习结合的路径规划方法及系统
CN109670270A (zh) 基于多智能体深度强化学习的人群疏散仿真方法及系统
Gu et al. A metaverse-based teaching building evacuation training system with deep reinforcement learning
CN107403049B (zh) 一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统
CN107909206A (zh) 一种基于深层结构循环神经网络的pm2.5预测方法
CN105740514A (zh) 一种大规模人群疏散计算机仿真系统及其方法
CN107480821A (zh) 基于实例学习的多Agent协作人群疏散仿真方法及装置
CN107480320A (zh) 一种基于拓扑地图与视觉影响的人群疏散仿真方法及系统
CN107330147A (zh) 一种地铁车站人员应急疏散仿真方法及系统
CN106650915B (zh) 基于网格智能体的人群行为模拟方法
CN103425884B (zh) 一种地铁换乘通道通行状态的模糊预测方法
CN108596368B (zh) 一种基于预测时间的多出口疏散方法
CN103995915B (zh) 一种基于复合势能场的人群疏散仿真系统
CN107293115A (zh) 一种用于微观仿真的交通流量预测方法
CN111414681B (zh) 基于共享深度强化学习的建筑物内疏散仿真方法及系统
CN107220447A (zh) 基于疏散路径集合的人群疏散仿真方法及系统
CN107657345A (zh) 一种基于马尔可夫状态跳变的行人行走行为预测方法
CN106096115A (zh) 一种基于自组织沙堆模型的人群疏散仿真方法
CN109190325B (zh) 基于行人拥挤度分析的人群疏散路径规划仿真方法
CN114815891A (zh) 一种基于per-idqn的多无人机围捕战术方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant