CN109214065B

CN109214065B - 基于多Agent共享Q表的人群疏散仿真方法及系统

Info

Publication number: CN109214065B
Application number: CN201810919874.5A
Authority: CN
Inventors: 刘弘; 韩延彬; 李梁
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2019-05-28
Anticipated expiration: 2038-08-14
Also published as: CN109214065A

Abstract

本发明公开了基于多Agent共享Q表的人群疏散仿真方法及系统，引领Agent将获取的局部疏散状态信息形成局部个人Q表，并表提交给管理Agent；而管理Agent将汇总所有引领Agent的个人Q表信息，并产生全局共享的Q表，并面向引领Agent进行共享；引领Agent利用全局共享Q表进行路径规划，引领周围普通跟随者Agent疏散撤离。普通跟随者Agent依据其获取的环境疏散信息和动态路径规划概率进行决策，进而采用自动规划、跟随引领Agent或跟随周围邻居从众疏散撤离。本发明通过共享Q表的形式实现引领Agent之间的信息共享和协同操作，实现高效的人群疏散，可用于对突发事件安全疏散计划的科学指导。

Description

基于多Agent共享Q表的人群疏散仿真方法及系统

技术领域

本发明属于人群疏散计算仿真领域，尤其涉及基于多Agent共享Q表的人群疏散仿真方法及系统。

背景技术

随着社会物质和精神文明飞速的发展，各类公共场所的大型集会逐渐增多，人群的密度程度较高，处于高度不稳定状态，极易引发拥挤踩踏等安全事故。而事故起因除了公共建筑场所存在设计上的不合理之外，更重要的是面对紧急突发事件的应急管理措施不到位，资源环境得不到充分利用，导致人群过程中出现不合理拥堵，由此容易引发恶性踩踏事故，给人民群众带来生命和财产的巨大损失。

当突发事件发生时，人们由于对所处的环境不熟悉，心理紧张，不知所措，常常采用无特定目标的跟从运动。特别是在疏散过程中行人受到视野、情绪等影响，不能直接获取疏散场景中的疏散信息，个体的盲目运动效应将被放大。而正是这种盲目从众效应，很容易造成一部分疏散通道及出口拥堵，而一部分通道及出口空置的现象，即在疏散过程中环境资源不能得到充分地利用，因此不能有效降低整体人群的疏散时间，增加了疏散风险。

虽然人群在运动过程中会形成跟随效应，链式效应等自组织现象，但是尽量获取整个疏散环境的信息，选择尽可能的脱困路线是行人的本能动作。行人在疏散过程中的实时动态路经规划过程要依据于行人获取的外部环境信息，如：出口位置、路段拥挤度、路段疏散能力、行人分布和运动趋势等。当行人获取的信息较少或者过于不确定时，在面对出口的路径规划时，将会产生犹豫、从众或者非理性的行为；反之如果行人获取的信息比较全面，那么他将会对出口和路径的疏散时间进行较为精确地估算，进而选择较好的路线撤离。由于行人获取的信息是动态变化的，而且行人之间会进行信息交流，因此行人获取的信息和制定的决策会随时间动态的变化，表现为动态的路径选择行为与获取信息完备程度的关系。在疏散过程中，如何为行人提供完整信息或依据环境信息正确引领其他行人疏散成为提高疏散效率的关键之一。

目前，人群疏散的研究多以智能体(Agent)技术为主，将行人看成独立的Agent，进而通过设定规则研究人群疏散运动规律，优化疏散过程，提高疏散效率，取了一定的研究成果。但传统的多Agent仿真技术仍存在仿真速度慢，学习复杂度高等诸多问题。

发明内容

为了解决现有技术的不足，本发明提供了基于多Agent共享Q表的人群疏散仿真方法及系统，该方法主要是采用共享Q表的方式实现疏散行人之间疏散信息的分享，从而实时动态路径规划，协同工作，充分利用环境资源，引领行人高效、安全撤地离疏散环境，为突发事件安全疏散计划等提供科学指导。

作为本发明的第一方面，提供了基于多Agent共享Q表的人群疏散仿真方法；

基于多Agent共享Q表的人群疏散仿真方法，包括：

搭建仿真环境，初始化疏散人群，将疏散人群划分为管理者Agent、若干个引领者Agent和若干个普通跟随者Agent；

每个引领者Agent维护自身感知的状态信息表Q1，并将自身感知的状态信息表Q1上传给管理者Agent；

管理者Agent将所有引领者上传的自身感知的状态信息表Q1与成功疏散过行人的疏散路径使用频率表Q2合并，得到全局共享Q表；将全局共享Q表共享给所有的引领者Agent和所有的普通跟随者Agent；

每个引领者Agent根据接收到的全局共享Q表对路径进行规划，给出路径选择策略，将路径选择策略广播给设定距离范围内的普通跟随者Agent；

普通跟随者Agent根据自身与出口之间的距离、路径选择策略或者全局共享Q表，对自身路径进行规划。

进一步的，所述Agent表示为疏散个体，疏散个体，包括：两类，第一类为熟悉疏散环境行人称为引领者Agent；第二类为普通疏散行人称为普通跟随者Agent。

进一步的，搭建仿真环境，包括：搭建虚拟人群疏散环境，设置若干个出口，设置若干个障碍物。

进一步的，初始化疏散人群，包括：

其中，P_x,y表示行人在x，y进行路径规划的先验概率；a_i表示行人到出口i的归一化之后的距离，其计算过程如公式(2)所示；t表示疏散时间，n为当前场景出口的数目，e^-γt为时间衰减因子，γ为状态收敛系数，其值决定疏散状态的收敛速度，γ值为0.01，t为疏散时间，

其中，d_j表示当前位置到出口j的最短距离，d_j利用广度优先算法获取。

在公式(1)中，由于衰减因子随时间推移而趋于0，导致行人变更策略的概率也逐渐降低，即随着时间的推移，特别是在疏散的后期，普通跟随者Agent改变运动策略的意愿越来越小，保证了疏散后期的稳定性和收敛性，这更加符合人群实际的疏散情况。

进一步的，所述管理者Agent用于更新和共享全局状态信息，所述全局状态信息，包括：所有路段的密度、相邻路段的密度差、出口位置以及所有成功撤离者所经过疏散段的使用频次；

进一步的，引领者Agent用于按照设定周期向管理者Agent上报自身接收的局部状态信息，并从管理者Agent获取全局状态信息；然后依据全局状态信息给出路径规划策略，引领普通跟随者Agent进行疏散；所述局部状态信息，是引领者Agent所观察到的信息，包括：局部疏散路段密度和局部相邻路段的密度差。

进一步的，普通跟随者Agent根据自身距离出口的距进行路径规划；或者，依据距离最近的引领者Agent给出的路径规划策略进行路径规划；或者，通过管理者Agent共享的全局状态信息来进行路径规划。

进一步的，每个引领者Agent维护自身感知的状态信息表Q1具体是指：

Q₁(A,B)＝exp(D_A-D_B) (3)

其中，D_A是路段A的行人密度，D_B是路段B的行人密度，如果路段B的行人密度小于路段A处的行人密度，则行人易于选择B路段撤离；即Q₁(A,B)值越大，行人越容易选择B路段作为疏散路径；Q₁(A,B)表示行人由路段A转移到路段B的概率；所述路段是两个出口之间的路径。

进一步的，当t时刻有行人成功疏散，则t+1时刻成功疏散过行人的疏散路径使用频率表Q2具体是指：

其中，route_i为编号为i的行人在成功疏散后曾经所走的路线，A和B为两个路段，为Q值增量，值为Agent行走路线长度的倒数，1/route_i；表示t时刻路段A到B的使用频次，在t＝0时刻，其值为0；则表示t+1时刻路段A到B的使用频次；

进一步的，将所有引领者上传的自身感知的状态信息表Q1与已经成功疏散过行人的疏散路径利用频次表Q2合并具体是指：

其中，Q(A,B)表示路段A到B之间的状态值，即路段A转向路段B的转移概率；表示路段A转向路段B的归一化之后的密度差；表示路段A转向路段B的归一化之后使用频率；表示路段A转向路段i的归一化之后密度差；表示路段A转向路段i的归一化之后使用频率；

Q(A,B)所表示的内容是整个场景中任意相邻路段A和路段B之间密度和使用频率的合并值，是全局信息；每个引领者Agent都可以访问Q(A,B)存储的内容，全局信息是共享的，被定义为全局共享Q表。

进一步的，每个引领者Agent根据接收到的全局共享Q表对路径进行规划，给出路径选择策略具体步骤，包括：

其中，R为所有候选路径集合，R_i为可供选择的某条路径，且R_i的终点是场景某一出口，A,B为路径R_i上两个相邻路段，Q(A,B)为管理者Agent提供的全局共享Q表中路径A到路径B的转移概率，Q(A,B)的计算过程见公式(5)，L(R_i)为路径R_i的路径长度。R_max表示行人对所有待选路径R_i的评估的最大值。

公式(6)表明待选路径R_i的长度越短，包含所路段间的转移概率越高,其评估值也大，这符合行人在选择疏散路径时考虑的因素。

进一步的，将路径选择策略广播给设定距离范围内的普通跟随者Agent步骤中：

引领者Agent广播的路径选择策略对普通跟随者Agent产生的影响CF_ki：

其中，P₀引领者Agent的位置，P_i表示普通跟随者Agent的位置。随着距离的增加，引领者Agent对其周围普通跟随者Agent的影响在减弱，σ为以引领者信息广播半径。

进一步的，普通跟随者Agent根据自身与出口之间的距离对自身路径进行规划的步骤为：

当出口出现在普通跟随者Agent视野中，选择出现在普通跟随者Agent视野中的出口，普通跟随者Agent自行规划疏散路径进行撤离；

普通跟随者Agent的路径规划，其候选路径的评估公式：

其中，R'为出现在普通跟随者Agent视野中的路径集合。

进一步的，普通跟随者Agent根据路径选择策略进行规划的步骤为：

当普通跟随者Agent的视野中没有出口，只存在引领者Agent时，普通跟随者Agent从引领者Agent处获取疏散信息，规划疏散路径；路径规划过程：

其中，i为当前普通跟随者Agent的编号，k为普通跟随者Agent i视野内引领者Agent的编号，N_l为普通跟随者Agent i视野内领者Agent的编号集合，R_max表示普通跟随Agent视野范围内，所有引领者Agent提供疏散信息评估的最大值，CF_ki表示编号为k的引领者Agent对当前普通跟随者Agent i的影响；R_k为视野内编号为k的引领者Agent所规划的路径，d_k为普通跟随者Agent和引领者Agent之间的距离，L(R_k)表示路径待选R_k到出口的距离，Q(A,B)表示路段A到路段B的转移概率。

从公式(9)来看，普通跟随者Agent采用距离其较远的引领Agent提供疏散信息的概率是较小的，除非其描述路径的平均转移概率很大，符合行人在实际运动规律。

进一步的，普通跟随者Agent根据全局共享Q表进行规划的步骤为：

当普通跟随者Agent在疏散过程中，出口和引领者均不在视野范围内时，普通跟随者Agent则利用管理者Agent全局共享Q表的内容进行路径规划，普通跟随者Agentj对路径i的评估值R_{v_ji}可采用如下表达式：

采用轮盘赌的策略从公式(10)所确定的评估值高的前m条路径中随机选择，作为普通跟随者Agent的决策路径集合，则集合中路径被选择的概率PS_k由下式表示：

进一步的，普通跟随者Agent根据自身与出口之间的距离、路径选择策略或者全局共享Q表，对自身路径进行规划步骤之前，还包括：判断是否进行路径规划，其决策表达式如下：

其中，P表示行人进行路径过规划的决策变量，当P等于1时进行路径规划，否则不进行路径规划；d_i为行人i在设定时间段内运动的距离，N_t为当前尚未撤离的行人数量，e^-λt为时间衰减因子；等式(12)描述了行人i在当设定时间段内运动距离低于场景内所有尚未撤离行人运动距离平均值时，才进行重新路径规划，重新选择路径。

进一步的，行人的运动状态实际为疏散路段，因此可定义当前状态和下一状态的边界作为行人临时运动目标，其中行人运动避碰技术采用RVO(Reciprocal VelocityObstacle)技术。

作为本发明的第二方面，提供了基于多Agent共享Q表的人群疏散仿真系统；

基于多Agent共享Q表的人群疏散仿真系统，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

作为本发明的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本发明的有益效果是：

本发明适用于突发事件下有疏散引领者的人群疏散仿真，主要仿真了实际疏散环境信息的获取和共享对人群疏散效率的影响。该发明可以再现疏散引领者对人群疏散的疏导作用，为人群疏散安全演练提供重要的依据，进而检测建筑疏散性能，以及优化实际疏散过程，提高疏散效率。

从实际疏散情况来看，行人在疏散过程中受视野影响并不能准确获取疏散场景信息，因此疏散引领者发挥重要的作用。疏散引领者的作用在于通过分享局部疏散状态信息，获取全局状态信息，进而协同调度，高效地引导行人疏散。本发明所描述的疏散过程可以更好的展现行人在疏散中复杂的决策过程，更加符合疏散过程中的个体认知环境信息的规律，可以用于突发事件下的人群疏散仿真。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明突发事件下的人群疏散计算机仿真系统结构示意图；

图2是本发明中管理Agent收集个人Q表，产生共享Q表的逻辑关系图；

图3是本发明中定义行人路径选择概率分布图；

图4是本发明状态定义示意图；

图5是本发明定义引领者信息发布示意图；

图6是本发明中普通行人三种获取疏散信息的方式；

图7是本发明实施例中初始化后的人群示意图；

图8是本发明实施例中，疏散中期出现出口阻塞人群分布图；

图9是本发明实施例中，疏散后期不同出口的人群分布图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明针对基于Agent的人群仿真技术，利用多Agent协同强化学习方法中的信息共享机制，设计一种基于共享Q表(状态—动作表)的疏散人群实时动态路径规划仿真方法，其中Q表中所描述的状态定义为场景中可用于疏散的路段，如图4所示。在用多Agent协同机制强化学习方法中，信息共享的方法主要有三种：(1)交换每个智能体感知的状态信息；(2)交换智能体的学习经验片段；(3)交换学习过程中的策略或参数等。本发明所涉及的信息共享源于第一种方法。

在本发明中基于多Agent共享Q表的动态路径该规划分为三个次：中层人群疏散引领者感知局部信息，生成局部个人Q表信息，并提交到上层疏散管理者；上层管理者汇总局部信息并进行共享发布，以便所有疏散人员了解实时变化的环境状态，充分利用环境资源，动态规划疏散路径，引领其他行人从各个出口疏散；而下层普通行人则不需要上报其周围状态信息，仅依据共享Q表信息进行规划，决定疏散路径。

本发明主要用于仿真在除引领者之外的行人不熟悉场景情况下的人群动态路径规划，这种仿真过程满足更多实际情况，不仅能够为安全疏散提供合理的方案，并且为建筑结构的设计，密集人群管理，突发事件安全疏散计划等提供科学指导。

根据实际疏散参与者所扮演的角色不同，本发明设定管理Agent，引领Agent和一般Agent等三种Agent，分别对应于疏散管理员，疏散引领者和普通行人，并对疏散人群做如下设置：

●引领者非常熟悉疏散建筑物布局，能获取局部状态信息，引领者具有引领普通行人疏散的责任；

●引领者需要将自己获取的信息提交给疏散管理员，并从管理员那里分享其他引领者的信息

●普通行人不熟悉疏散环境，如果该行人熟悉疏散环境，该行人视为引领者；

●普通行人不熟悉疏散环境，其视线受障碍物限制，具有有限视野，不能获取完整的疏散信息，决定其动态路径规划的信息来源于管理员共享的Q表；

●普通行人更换疏散策略的意愿与疏散时间和疏散位置有关系，即如果行人距离出口远或疏散初期，行人更换策略越频繁，而在疏散后期或行人距离出口较近时更换策略的意愿降低。

需要明确的是，上述设置是符合行人在疏散过程的动作，并不违背疏散实际情况。

基于多Agent共享Q表的人群疏散仿真方法，包括以下步骤：

构建基于多Agent共享Q表的人群疏散动态框架。基于多Agent共享Q-Table的动态路径规划方法，其核心是一种三层控制机制，即上层空间管理Agent用于更新和共享全局状态信息；中层空间是引领Agent负责向上层上报局部状态信息，并依据上层共享全局状态信息，进行路径规划引领下层普通跟随者Agent疏散；下层是普通跟随者Agent受视野和障碍物限制，不能主动获取整个疏散场景，但可以通过管理员共享的全局状态信息来进行动态路径规划。其中疏散整体框架图如图1所示；管理Agent收集引领Agent Q表信息，产生全局共享Q表的逻辑关系图参见图2。

进一步的，构建行人(普通跟随者Agent)动态路径规划路径概率分布图，用以描述普通跟随者Agent在疏散过程中主动进行动态路径规划的意愿。一般情况下，普通跟随者Agent路径规划的意愿与疏散时间和所处的环境空间有密切关系，即普通跟随者Agent距离出口越远其规划的意愿越强，而随着疏散时间的推进，当普通跟随者Agent距离某一出口较近是，其路径规划更改运动方向的意愿越低，依据上述分析，普通跟随者Agent动态路径规划概率分布图如下所示：

其中，P_x,y表示行人在x，y进行路径规划的先验概率；a_i表示行人到出口i的归一化之后的距离，其计算过程如公式(2)所示；t表示疏散时间，x，y为Agent所处场景的位置，n为当前场景出口的数目，e^-γt为时间衰减因子，_γ为状态收敛系数，其值决定疏散状态的收敛速度，在本发明中其值为0.01，t为疏散时间；

在公式(1)中，由于衰减因子随时间推移而趋于0，导致行人变更策略的概率也逐渐降低，即随着时间的推移，特别是在疏散的后期，普通跟随者Agent改变运动策略的意愿越来越小，保证了疏散后期的稳定性和收敛性，这更加符合人群实际的疏散情况。其中某一场景的行人动态路径规划概率图如图3所示。

进一步的，定义引领Agent的个人Q表。Q表在强化学习当中定义为相邻状态之间的状态转移概率，而状态转移概率应体现疏散路径的可用性。普通跟随者Agent的疏散路径可有一系列疏散路段构成，其疏散过程可以看成是有路段到路段的切换过程，直至其撤离场景，因此在当前的发明中我们将疏散路段定义为Q表中的状态，而定义在状态和状态之间的Q值视为路段和路段之间的状态转换概率。疏散路段的可用性实际包含两个方面：一个是路段之间的拥挤度，另个是当前路段被成功撤离行人的利用频率，基于此Q值有如下更新准则：

●依据路段及其相邻路段新一时刻的密度差更新新一轮Q值。其基本原则是如果B路段的密度低于相邻的A路段，则行人易于选择B路段撤离，每个引领者Agent维护自身感知的状态信息表Q1具体是指：

Q₁(A,B)＝exp(D_A-D_B) (3)

其中，D_A是路段A的行人密度，D_B是路段B的行人密度，如果B处的密度如果小于A处的密度，则Q值越大，行人越容易选择该路段作为疏散路径；反之亦然。

●当t时刻有行人成功疏散，则t+1时刻成功疏散过行人的疏散路径使用频率表Q2具体是指：

进一步的，根据引领Agent的视野范围内的状态信息，计算其个人局部Q_p表，其值的计算过程依据公式(3)，并将个人局部Q_p表提交给管理Agent，进而实现局部数据在引领Agent之间分享。

进一步的，设置管理Agent管理各个引领Agent提供的个人Q_p表，进一步产生整个疏散场景的共享全局Q表。管理Agent通过这种方式，向每个引领Agent共享整个疏散场景的信息。管理Agent在将Q₁表和Q₂表进行归一化后，构建最终Q表值，其计算公式如下式所示：

进一步的，引领Agent依据管理Agent提供的共享Q表进行路径规划，其规划目标为在考虑路径长度的基础上，选择转移概率最大的路径。其路径选择策略如下式表示：

上式实际描述引领Agent在获取全局共享状态信息基础上并进行决策的过程，即在可用疏散路径空间中搜索具有平均最大转移概率的疏散路径。依据距离对信息传播的影响，本发明定义引领Agent发布信息对周围行人产生的影响定义如下：

由上式可以看出，随着距离的增加，引领Agent对其周围普通跟随者Agent的影响在减弱。其信息如图5所示，箭头始发处的原点表示引领Agent，虚线表示引领Agent的发布范围，箭头表示传播的方向，箭头终点处的圆圈表示其影响的普通行人。

进一步的，定义普通跟随者Agent路径决策过程。实际上受视线和障碍物的影响，普通跟随者Agent在整个疏散过程中，存在三种路径规划方法：直接获取出口信息，从引领Agent获取信息，从周围普通跟随者Agent获取信息。

●当出口出现在普通跟随者Agent视野中，普通跟随者Agent自行规划疏散路径，选择出口和路径进行撤离。普通跟随者Agent在当前情况下的路径规划可参见公式(6)，但是由于普通跟随者Agent只能获取局部的疏散信息，因此公式(6)中路径R的终点只能是出现在普通跟随者Agent视野中的出口。参见图6情况(1)，虚线圆圈中箭头始发处的圆圈为待分析的普通行人，虚线为其视野半径，出口存在其视野中。

●当普通跟随者Agent不能直接获取信息时，且视野中存在引领Agent时，可以从引领Agent处获取疏散信息，规划疏散路径。其路径规划过程可由下式定义：

其中，R'为出现在普通跟随者Agent视野中的路径集合。

从公式(8)来看，普通跟随者Agent采用距离其较远的引领Agent提供疏散信息的概率是较小的，除非其描述路径的平均转移概率很大，这是符合行人在实际运动规律。参见图6情况(2)，虚线圆圈中的浅色圆圈为待分析的普通跟随者Agent，虚线为其视野半径，虚线圆圈中的深色圆圈为引领Agent，存在该Agent的视野中。

●当普通跟随者Agent在疏散过程中，没有任何疏散参照时，其不能依据自身能力获取疏散状态信息，因此普通跟随者Agent则利用管理Agent共享Q表的内容进行路径规划，规划策略如公式(6)所示。但由于普通Agen本身对于场景不熟悉，所以其路径规划带有较大的不确定性。为了描述这样路径规划的不确定性，因此本发明中引动采用轮盘赌的策略从有公式(6)所确定的评估值较高的前m条路径中随机选择，作为普通跟随者Agent的决策路径。路径被选择的概率如式所示：

参见图6情况(3)，箭头始发处的圆圈为待分析的普通跟随者Agent，虚线为其视野半径，其视野中没有出口和引领Agent存在。

进一步的，由于在本发明中行人的运动状态实际为疏散路段，因此可定义当前状态和下一状态的边界作为行人临时运动目标，其中行人运动避碰技术采用RVO(ReciprocalVelocity Obstacle)技术。

在本发明当中，疏散引领Agent与管理Agent可利用手机登移动通信手段提交其所了解的周围环境，而管理Agent在通过整理所有引领Agent信息之后，将全局共享信息进行广播分发；管理Agent发布的信息实际包含了整个疏散场景各个路段的拥挤度和利用率等，这有助于每个引领Agent依据自身目前状况，快速制定较优的撤离路径；引领Agent将其路径规划信息同样进行广播影响周围行人后，将进一步影响其周围普通跟随者Agent的路径选择过程，从而有效提高公共场所中通道的利用率；此外，发明中的决策概率P_x,y随时间衰减，路径评估中融入了转移概率和路径距离，引领Agent的影响力随距离增加而衰减，从众运动选择过程中的信息评估等都是从人群实际疏散过程中出发而设计的。因此，本发明中基于Q表共享的实时动态路径规划方法是符合人群疏散运动规律的；能够有效提高公共场所中通道的利用率以及突发事件情况下的人员安全性，有利于设计疏散预案，为真实的疏散演练提供帮助。

实施例2：本发明的另一实施例是一种突发事件下的人群疏散仿真系统，包括：包括：疏散场景分析单元(出口位置，障碍物位置，墙的位置等)，局部状态分析单元(路段密度，出口行人密度等)，全局状态分析单元(整理引领Agent提交的局部信息和成功撤离Agent的路径信息合成全局状态信息构建状态转移概率)用于实现全局疏散信息的共享；引领Agent路径规划单元(针对尚未撤离的引领Agent依据共享全局信息进行路径规划)，普通行人路径规划单元(依据行人所处的三种情况进行路径规划)，实现利用引领Agent选择恰当的疏散路径引导其他行人疏散的仿真。采用计算机编程的方式实现上述功能。

实施例3：如图7所示，有550个人实际场景平面区域上进个体群疏散仿真。如图7至图9所示。场景中包含3个出口，两个出口宽度均为2m，一个出口宽度为3.5米，四个障碍物。图7个体初始位置分布情况，个体相对均匀的分布在场景中。图8为疏散中期人群的分，可以看出行人依据其获取的信息开始逐渐集中在三个出口的周围，并且由于在疏散前期，行人多采用中间道路进行疏散，从而导致黑色框路段出现拥挤，这进一步导致，行人将选择两侧的路段进行疏散。图7为疏散接近结束的状态，可以看出行人在每个出口的人数大致相当，也说明出口在整个疏散过程中都得到充分的利用，体现了较高的疏散效率。这个疏散过程充分说明了管理Agent，引领Agent，普通跟随者Agent3级疏散管理的有效性,也说明本发明能够真实的仿真个体在疏散过程中的决策行为。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于多Agent共享Q表的人群疏散仿真方法，其特征是，包括：

普通跟随者Agent根据自身与出口之间的距离、路径选择策略或者全局共享Q表，对自身路径进行规划；

初始化疏散人群，包括：

2.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法，其特征是，

管理者Agent用于更新和共享全局状态信息，所述全局状态信息，包括：所有路段的密度、相邻路段的密度差、出口位置以及所有成功撤离者所经过疏散段的使用频次；

引领者Agent用于按照设定周期向管理者Agent上报自身接收的局部状态信息，并从管理者Agent获取全局状态信息；然后依据全局状态信息给出路径规划策略，引领普通跟随者Agent进行疏散；所述局部状态信息，是引领者Agent所观察到的信息，包括：局部疏散路段密度和局部相邻路段的密度差；

普通跟随者Agent根据自身距离出口的距进行路径规划；或者，依据距离最近的引领者Agent给出的路径规划策略进行路径规划；或者，通过管理者Agent共享的全局状态信息来进行路径规划。

3.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法，其特征是，

每个引领者Agent维护自身感知的状态信息表Q1具体是指：

Q₁(A,B)＝exp(D_A-D_B) (3)

其中，D_A是路段A的行人密度，D_B是路段B的行人密度，如果路段B的行人密度小于路段A处的行人密度，则行人易于选择B路段撤离；即Q₁(A,B)值越大，行人越容易选择B路段作为疏散路径；Q₁(A,B)表示行人由路段A转移到路段B的概率；所述路段是两个出口之间的路径；

当t时刻有行人成功疏散，则t+1时刻成功疏散过行人的疏散路径使用频率表Q2具体是指：

将所有引领者上传的自身感知的状态信息表Q1与已经成功疏散过行人的疏散路径利用频次表Q2合并具体是指：

其中，Q(A,B)表示路段A到B之间的状态值，即路段A转向路段B的转移概率；表示路段A转向路段B的归一化之后的密度差；表示路段A转向路段B的归一化之后使用频率；表示路段A转向路段i的归一化之后密度差；表示路段A转向路段i的归一化之后使用频率。

4.如权利要求3所述的基于多Agent共享Q表的人群疏散仿真方法，其特征是，

每个引领者Agent根据接收到的全局共享Q表对路径进行规划，给出路径选择策略具体步骤，包括：

其中，R为所有候选路径集合，R_i为可供选择的某条路径，且R_i的终点是场景某一出口，A,B为路径R_i上两个相邻路段，Q(A,B)为管理者Agent提供的全局共享Q表中路径A到路径B的转移概率，Q(A,B)的计算过程见公式(5)，L(R_i)为路径R_i的路径长度；R_max表示行人对所有待选路径R_i的评估的最大值；

将路径选择策略广播给设定距离范围内的普通跟随者Agent步骤中：

其中，P₀引领者Agent的位置，P_i表示普通跟随者Agent的位置；随着距离的增加，

引领者Agent对其周围普通跟随者Agent的影响在减弱，σ为以引领者信息广播半径。

5.如权利要求3所述的基于多Agent共享Q表的人群疏散仿真方法，其特征是，

普通跟随者Agent根据自身与出口之间的距离对自身路径进行规划的步骤为：

普通跟随者Agent的路径规划，其候选路径的评估公式：

其中，R'为出现在普通跟随者Agent视野中的路径集合。

6.如权利要求1所述的基于多Agent共享Q表的人群疏散仿真方法，其特征是，

普通跟随者Agent根据路径选择策略进行规划的步骤为：

7.如权利要求3所述的基于多Agent共享Q表的人群疏散仿真方法，其特征是，

普通跟随者Agent根据全局共享Q表进行规划的步骤为：

普通跟随者Agent根据自身与出口之间的距离、路径选择策略或者全局共享Q表，对自身路径进行规划步骤之前，还包括：判断是否进行路径规划，其决策表达式如下：

8.基于多Agent共享Q表的人群疏散仿真系统，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-7任一项方法所述的步骤。

9.一种计算机可读存储介质，其特征是，其上存储有计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-7任一项方法所述的步骤。