CN111414681A

CN111414681A - 基于共享深度强化学习的建筑物内疏散仿真方法及系统

Info

Publication number: CN111414681A
Application number: CN202010175498.0A
Authority: CN
Inventors: 刘弘; 韩延彬; 李梁
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-14
Anticipated expiration: 2040-03-13
Also published as: CN111414681B

Abstract

本公开公开了基于共享深度强化学习的建筑物内疏散仿真方法及系统，包括：每组待疏散人群的引领者与对应的导航Agent连接，每个导航Agent均与管理Agent连接；各导航Agent引导各组疏散，导航Agent均把实时采集的信息及自身经验池存储到管理Agent管理的知识库中；管理Agent对知识库中的所有导航Agent的疏散信息，基于共享的深度强化学习算法进行学习，将学习产生的指导各导航Agent进行路径选择的策略实时发送给导航Agent；每个导航Agent根据接收到的用于指导各导航Agent进行路径选择的策略，进行路径规划；引领者按照对应导航Agent的路径规划，引领对应的群组向疏散出口疏散。

Description

基于共享深度强化学习的建筑物内疏散仿真方法及系统

技术领域

本公开涉及人群疏散仿真技术领域，尤其涉及基于共享深度强化学习的建筑物内疏散仿真方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

近年来，随着社会经济的高速发展，各种聚集了大量人群的大型公共活动不断增多，这其中的安全问题引起了越来越多的关注。在一些人员密集的公共建筑场所内，由于在建筑设计上的不合理，以及应急管理方面的不到位，当发生各种紧急突发事件，人员需要紧急撤离时，容易造成疏散人群的拥挤和阻塞，甚至发生严重的人员踩踏事故。

人群踩踏事故是有规律可循的。与地震、海啸等自然灾害不同的是，人群踩踏事故作为一种人为灾难，在事件发展的过程中受到触发因素的推动而逐渐演化产生，通过理论分析、模型验证和软件仿真，有助于人们掌握其触发、演化的一般规律，并采取正确的预防控制措施，为应急管理部门防范人群踩踏风险提供理论依据。

当突发事件发生时，人们由于对所处的建筑物内环境不熟悉，加上心理紧张，不知所措，常常没有目标的盲目从众跟随，而由于这种行为，很容易造成疏散通道及出口拥堵，同时有的通道及出口空闲。

在这种情况下，利用经验知识进行合理的引导是非常重要的。在人群疏散过程中，如果有熟悉场景的人员及合理的疏散策略引导，并且在疏散过程中及时传播信息，根据疏散通道及出口的拥挤度动态调整策略，引导人群朝着正确的疏散通道疏散，是非常重要的。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

传统的强化学习方法无法解决状态空间过大导致的维数灾难问题；

传统的建筑物内人群疏散仿真方法，速度慢，稳定性差，不能满足快速准确的人群疏散仿真需求。

发明内容

本公开的目的就是为了解决上述问题，提供基于共享深度强化学习的建筑物内疏散仿真方法及系统。

为了实现上述目的，本公开采用如下技术方案：

第一方面，本公开提供了基于共享深度强化学习的建筑物内疏散仿真方法；

基于共享深度强化学习的建筑物内疏散仿真方法，包括：

从视频中实时获取建筑物内的环境信息，实时采集人群分布信息；

搭建人群疏散双层控制机制，上层空间是管理Agent、多个导航Agent及知识库，下层空间是引领者及待分组的人群；

对待分组的人群进行分组，每组人群选出一个引领者，每组的引领者与对应的导航Agent连接，每个导航Agent均与管理Agent连接；

各导航Agent引导各组疏散，所有的导航Agent均把实时采集的信息及自身的经验池存储到管理Agent管理的知识库中；

管理Agent对知识库中的所有导航Agent的疏散信息，基于共享的深度强化学习算法进行学习，将通过学习产生的指导各导航Agent进行路径选择的策略实时发送给导航Agent；

每个导航Agent根据接收到的用于指导各导航Agent进行路径选择的策略，进行路径规划；

引领者按照对应导航Agent的路径规划，引领对应的群组向疏散出口疏散。

第二方面，本公开提供了基于共享深度强化学习的建筑物内疏散仿真系统；

基于共享深度强化学习的建筑物内疏散仿真系统，包括：

获取模块，其被配置为：从视频中实时获取建筑物内的环境信息，实时采集人群分布信息；

搭建模块，其被配置为：搭建人群疏散双层控制机制，上层空间是管理 Agent、多个导航Agent及知识库，下层空间是引领者及待分组的人群；

分组模块，其被配置为：对待分组的人群进行分组，每组人群选出一个引领者，每组的引领者与对应的导航Agent连接，每个导航Agent均与管理Agent 连接；

存储模块，其被配置为：各导航Agent引导各组疏散，所有的导航Agent 均把实时采集的信息及自身的经验池存储到管理Agent管理的知识库中；

学习模块，其被配置为：管理Agent对知识库中的所有导航Agent的疏散信息，基于共享的深度强化学习算法进行学习，将通过学习产生的指导各导航 Agent进行路径选择的策略实时发送给导航Agent；

路径规划模块，其被配置为：每个导航Agent根据接收到的用于指导各导航Agent进行路径选择的策略，进行路径规划；

疏散模块，其被配置为：引领者按照对应导航Agent的路径规划，引领对应的群组向疏散出口疏散。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

本公开的有益效果：

1、通过采集人群的分布信息；然后采用人群疏散导航双层控制机制，上层空间是多个Agent及知识库，下层空间是引领者及其分组的群体。在下层空间中，首先根据人群关系和密度等信息将人群分成若干群组；各群组根据组内各行人对环境的熟悉程度及其到最近出口的距离，选出引领者；引领者通过手机与导航Agent交互来实现双层路径选择空间信息交换。在上层空间中，采用基于多Agent共享的深度强化学习算法为导航Agent规划疏散引领路径，并最终推送给对应的疏散引领者引导群组高效的完成疏散过程。该方法及系统主要适用于建筑物内人群疏散。

2、本公开采用多Agent共享深度强化学习的方法，使各导航Agent及时了解环境的全局信息，动态的规划路径，避开拥堵路径，提高疏散速度。

附图说明

图1是本公开实施例一的基于共享深度强化学习的建筑物内疏散仿真方法流程图；

图2是本公开实施例一的人群疏散双层控制机制的示意图；

图3是本公开实施例一的多个导航Agent联合动作-状态示意图；

图4是本公开实施例一的多个导航Agent共享深度强化学习流程示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

强化学习是人工智能领域中非常具有潜力的一种方法，其主要理念是模仿人类试错学习的行为，根据环境调整自身的行为以更好地适应环境。在强化学习中，智能体(Agent)与环境交互，执行动作得到反馈，根据反馈评估状态和动作，优化自身策略，最终得到能获得最大回报的行为策略。具体过程是智能体观测环境得到自身与环境的状态，按照初始化或学习得到的策略进行决策和动作，在环境中执行并到达下一个状态，根据环境反馈的奖励或惩罚进行评估，改进自身的策略来适应环境，如此循环往复，通过大量探索得到的数据来优化策略，最终使得该策略能指导智能体在与环境交互的一段时间内得到更大的累计奖励。

Actor-Critic算法是强化学习的一种方法，是在策略梯度的基础上使用Q函数来替代回报函数R，而该Q函数是由专门的评价网络计算得到。Actor是指策略网络，利用策略梯度来更新策略，使算法能够在连续的动作中选择合适的算法。Critic是评价网络，负责策略函数的部分，对策略网络采用的动作评价，得到更新后的值函数指导策略网络更新。相较于传统的策略迭代法，Actor-Critic 方法能单步更新，速度更快。

传统的强化学习方法在基于知识的人群疏散导航中，取得了很多有价值的研究成果。但是，近几年迅速发展的深度强化学习与传统的强化学习方法相比，有几个改进之处:

(1)为了解决状态空间过大导致的“维数灾难”问题，深度强化学习不再使用Q值表格来记录各个状态动作的Q值，而是使用Q值网络Q(s,a；θ)来拟合值函数。

(2)深度强化学习利用经验回放进行学习，为网络的更新提供足够的训练样本。记录探索过程中的样本<s_t,a_t,r_t,s_t+1>，存入经验池中，Q值网络每次梯度更新时从经验池中随机抽取小批量样本，该策略提高了样本的利用率，加速收敛，另一方面随机抽样避免了序列样本的输入，打破数据间的关联性，提升训练稳定性。

(3)深度强化学习设置目标网络来单独处理时间差分算法中的TD偏差，为网络更新提供损失函数。使用两个有相同结构的Q值网络，前者Q(s,a；θ)网络参数实时更新，后者Q(s,a；θ)的参数是隔段时间同步前者的参数。

因此，本公开采用Actor-Critic与深度强化学习结合的方法进行学习，以弥补传统的强化学习的不足之处。

实施例一，本实施例提供了基于共享深度强化学习的建筑物内疏散仿真方法；

如图1所示，基于共享深度强化学习的建筑物内疏散仿真方法，包括：

S1：从视频中实时获取建筑物内的环境信息，实时采集人群分布信息；

S2：搭建人群疏散双层控制机制，上层空间是管理Agent、多个导航Agent 及知识库，下层空间是引领者及待分组的人群；

S3：对待分组的人群进行分组，每组人群选出一个引领者，每组的引领者与对应的导航Agent连接，每个导航Agent均与管理Agent连接；

S4：各导航Agent引导各组疏散，所有的导航Agent均把实时采集的信息及自身的经验池存储到管理Agent管理的知识库中；

S5：管理Agent对知识库中的所有导航Agent的疏散信息，基于共享的深度强化学习算法进行学习，将通过学习产生的指导各导航Agent进行路径选择的策略实时发送给导航Agent；

S6：每个导航Agent根据接收到的用于指导各导航Agent进行路径选择的策略，进行路径规划；

S7：引领者按照对应导航Agent的路径规划，引领对应的群组向疏散出口疏散。

进一步地，从视频中实时获取的环境信息，具体包括：疏散场景形状、建筑结构(包括楼层及障碍物、出口位置以及出口的个数)；

进一步地，所述实时采集人群分布信息，是通过蓝牙设备实时采集人群分布信息。

进一步地，通过蓝牙设备实时采集人群分布信息，具体包括：每个人分布的位置；

蓝牙使用2.402GHz到2.480GHz的微波无线电频谱。蓝牙无线电设备的最大功率输出，1类是100mW，2类是2.5mW，3类是1mW。即便是1类的最大功率输出功率也小于移动电话的最小功率。UMTS和W-CDMA输出为250mW， GSM1800/1900为1000mW，GSM850/900为2000mW。

应理解的，上述技术方案的有益效果是：采用短距离、低功耗的蓝牙技术采集人群分布信息。蓝牙技术采用跳频机制进行数据传输，具有很强的数据传送抗干扰功能以及速度快、功耗低、成本低的特点，采集的信息与真实的人群分布信息更为贴切，而且易于实际应用。

搭建的人群疏散双层控制机制如图2所示，其中，上层空间的MA表示管理Agent,NA表示导航Agent。

进一步地，所述管理Agent，用于：

接收各个导航Agent上传的各引领者的位置和人员流信息(所在组人员的位置信息)，并将接收的信息存储到知识库中；实时记录每个引领者的位置和人员流信息；

接收各个导航Agent上传的已经成功疏散过行人的路径，并将该路径存储到知识库中；

根据各个出口的拥堵情况，并采用共享的深度强化学习算法，更新策略，协调各导航Agent的动作。

进一步地，所述导航Agent，用于：

接收引领者的当前时刻所处位置，并将接收到的信息上传给管理Agent；

维护自己的经验池，接受管理Agent给出的疏散策略，并进行路径规划决策；

根据路径规划，向引领者发送下一时刻目标位置，引导对应的引领者引领人群向安全出口移动。

进一步地，所述知识库，包括：

情景知识，包括：引领者的位置和人员流信息；

规范知识，包括：疏散标准和已经成功疏散过行人的路径；

拓扑知识，包括：场景中的障碍物以及出口信息；

领域知识，包括：所有参数的值域范围以及参数之间的约束关系；

历史知识，包括：每次疏散仿真后的路径记录以及疏散时间。

进一步地，对人群分组是根据人群中个体间关系、人群在疏散场景中的密度以及个体位置信息来确定人群分组信息，详见基于网格-密度-关系的疏散人群行为仿真系统及其方法(申请号：2016100449594)。

进一步地，每组人群选出一个引领者的具体步骤为：

以人群数据集X＝{x_ij,i＝1,2,…,N}为例：

其中，N是人群数据集分组数，x_ij是组i中的第j个个体。

每组根据个体的适应度函数值选出引领者。

适应度函数值定义为：

其中，w₁和w₂分别是个体对环境的熟悉程度的权重和距离出口的位置的权重值,w₁+w₂＝1。设w₁＝0.5，w₂＝0.5。k(x_ij)是个体x_ij对场景的熟悉程度,d(x_ij)是 x_ij距离出口的位置,x_ij是组i中的第j个个体。

各组中具有最高适应度值的个体被选择为引领者。

进一步地，每组的引领者与对应的导航Agent建立连接关系中的引领者与导航Agent之间是一一对应关系。

进一步地，S4：各导航Agent引导各组疏散，疏散过程中的引领者的状态是指引领者在疏散过程中所处位置距离各出口的距离、引领者邻域的人群密度及当前的运动速度，采用状态集合表示：

其中，k为出口编号，k＝1,2,...,n；i为引领者编号，j为导航点编号,j＝1,2,...，

表示t时刻引领者到各出口的距离，

表示t时刻各导航点的密度信息，dg^t为引领者邻域的行人密度，

分别表示引领者在x和y方向上的速度分量，n 为出口的数量，m为导航点的数量。

行为集合A，包括：引领者从当前时刻所处位置到下一个时刻所处导航点位置的选择行为；

引领者的执行策略，用π表示，用于描述疏散引领者在下一时刻运动速度的调整。执行策略表达式：

π(a|s)＝P(a_t＝a|s_t＝s) (3)

其中，π(a|s)表示在状态s下选择行为a的概率。s是状态集合S中的一个状态，a是行为集合A中的一个行为，用于描述对疏散引领者的疏散引导s_t是在 t时刻的状态，a_t是在t时刻的动作，用于描述引领者在当前时刻运动速度的调整量。

反馈集合，包括：疏散引领者执行动作a时，引起环境的瞬时奖励来评估当前执行的动作。评估值r_t的表达式：

r_t＝R(π(a|s_t)，E) (4)

其中，a表示执行的行为，s_t为t时刻引领者的状态信息，π(a|s_t)表示引领者在t时刻的位置处做出选择行为a的概率；E表示奖赏标准；R(π(a|s_t)，E)表示奖赏函数。

奖赏标准E的计算公式为：

公式(5)描述了t时刻疏散引领者采取动作a时，环境给予的奖励；

其中，r_goal为引领者到达目标后给与的奖励；ds_t为引领者到各个出口最短距离的最小值；d_t1为距离阈值，用于判定引领者是否到达出口；r_cgst为导航点密度变化引起的环境奖励，Tim为根据历史知识计算出来的引领者所处路段的通行时间；Hot为引领者所处路段被行人选择的频率；d_t2为密度阈值，即只有导航点最大密度小于设定阈值才给与奖励，用于限定人群疏散过程中的拥挤度；c₁，c₂分别为常数，用于奖惩引领者的运动是否靠近出口。

根据公式(5)看出环境对于当前动作的瞬时评估情况：

当ds_t<d_t1时，疏散引领者到达出口位置，环境给予的奖励值是r_goal；

当dn_t<d_t2时，体现了运动产生的拥堵对于当前策略的惩罚，即当各个导航点的大小拥堵小于指定的阈值时，动作才给予奖励，且奖励还与引领者当前的所处路段有关；

其余情况时，rest表示引领者在运动过程中的其他情况，如果引领者当前位置较上一时刻的位置更靠近出口是则给予一定的奖励，反之则惩罚。

引领者到各个出口最短距离的最小值的计算公式：

当前时刻各导航点密度的最大值：

Tim是进行归一处理后从知识库中提取的历史数据计算出来的当前路段的通行时间；历史数据包括从导航点到导航点之间到达的时间及经过的人的次数。 Tim为所有成功撤离行人通过当前路段耗费时间的均值，Tim∈[0,1]。

Hot是进行归一处理后从知识库中提取的历史数据计算出来的路径热度，即曾经选择该路径人数之和与选择各路径的人数之和的比值，Hot∈[0,1]，其表达式如下：

根据状态集合、行为集合和反馈集合，计算累积加权奖赏的数学期望V_π(s)：

其中，γ∈[0,1]为折扣因子，r_t为t时刻的奖赏，s_t为t时刻的状态；E_π表示执行选择策略π的奖惩标准，r_t+k表示t+k时刻的奖赏，s_t＝s表示s_t是状态集合S 里的一个状态。

对于任意策略π，t时刻在状态s_t的值函数V_π(s_t)表示为：

其中，P(s_t+1|s_t，a_t)表示位置转移概率，V_π(s_t+1)表示对于任意策略π，t+1时刻在位置s_t+1的值函数。

进一步地，S4：各导航Agent引导各组疏散，所有的导航Agent均把实时采集的信息及自身的经验池存储到管理Agent管理的知识库中；具体步骤包括：

每个导航Agent i将其t时刻的状态s_t输入其维护的策略j，得到下一步执行动作a_t，在疏散环境中，导航Agent i对应的引领者执行该动作并引导组内行人运动从而到达新状态s_t+1,并获得回报r_t；同时导航Agent i将该交互数据以元组 <s_t,a_t,s_t+1,r_t>的形式存入其独享的经验池D_t中，并把实时获取得信息以及经验池的信息上到管理Agent管理的知识库中；

其中，s_t是在t时刻的状态，a_t是在t时刻的动作(速度调整)，r_t为t时刻的奖赏，s_t+1是执行动作a_t后下一步的状态。

进一步地，S5：管理Agent对知识库中的所有导航Agent的疏散信息，基于共享的深度强化学习算法进行学习，将通过学习产生的指导各导航Agent进行路径选择的策略实时发送给导航Agent；具体步骤包括：

S501：管理Agent获取每个导航Agent的状态s₁,s₂,...,s_n，得到组合状态 S＝{s₁,s₂,...,s_n}；

S502:步数t＝1；

S503：对每个导航Agent i，根据当前的状态

执行相应的动作

组合动作为

得到新的组合状态

从环境中得到回报值

将每个导航Agent i的

存到各自的经验池D_i中；

S504：对每个导航Agent i，按动作集合中元素的个数，以经验池的容量为最大值生成一串随机数，然后以随机数为索引从所有导航Agent的经验池中采样得到时刻t的一批数据，并将其拼接得到一批元组

元组中每个数据的格式为：

其中s_t是t时刻导航Agent i的状态，

是t时刻所有导航Agent的组合动作，s_t+1是执行A_t后Agent i的状态，r_t是执行联合动作A_t后导航Agenti的回报值。

S506：将s_t+1输入到第i个Actor网络中得到动作A_t+1，随后将s_t+1与A_t+1共同输入到第i个Critic网络中，得到对下一时刻Agent i执行联合动作估计的目标Q值。

其中，所述Actor网络和Critic网络，均是Actor-Critic算法中的。Actor网络也被称之为策略网络；Critic网络也被称之为目标评价网络。

Critic网络计算得到目标Q值的公式为：

其中，

是具有延迟参数θ_i'的目标策略集合；

将导航Agent i的状态

和所有导航Agent的组合动作组A_t，均输入到Critic 网络中，得到导航Agent i执行当前动作的评价Q值，使用TD偏差更新导航 Agent i的Critic网络：

利用评价Q值的梯度来更新导航Agent i的Actor网络；

S507：t＝t+1；如果t没达到最大回合数，转S503，否则结束并输出训练好的指导策略。

在强化学习计算Q值的过程中，管理Agent的目标是找到一种未来反馈值最大的动作选择方式，利用该动作选择方式与环境进行交互。

使用价值评价函数Q来表示在状态环境s_t下采取行为a_t后的期望回报及其之后的策略π。

深度强化学习算法为深度学习提供训练的样本，持续优化Critic网络的权重矩阵；训练样本指的状态，策略，动作和反馈的集合。深度强化学习算法对知识库的数据进行计算，得出动作Q值，Q值为某个状态下所有动作的估值，该值越大，则选择相应动作的概率越大。然后根据该Q值与强化学习提供的Q值计算损失函数后，对深度学习模型网络权重调整；

Q函数的更新公式为：

其中，Q(s_t+1,a_t+1)与Q(s_t,a_t)分别为导航Agent在t+1时刻与t时刻的Q值，α∈[0,1]是学习因子，学习因子随学习过程逐渐变小；γ∈[0,1]为反馈值衰减因子，表示每一时间步t反馈值的衰减率。γ越大，未来取得回报的比重越大；r_t+1为t+1 时刻的奖惩值，

为转向下一个状态s_t+1时，执行行为集合A中所有行为a的最大值。

在深度学习计算Q值的过程中，深度强化学习算法使用深度神经网络作为 Q值网络，通过权重为θ的神经网络近似函数估计Q值，该深度神经网络的输入为状态，策略，动作和反馈的集合，输出值为Q值的估计值；经过卷积、池化、全连接操作，输出该状态下每个动作的Q值的估计值。设参数为θ，则Q(s_t,a_t) 的估计值Q(s_t,a_t；θ)为：

Q(s_t,a_t；θ)＝Q^π(s_t,a_t)； (12)

根据深度强化学习算法计算的Q值，通过对损失函数L_i(θ)使用梯度下降法更新权重θ，从而来优化深度神经网络。L_i(θ)公式为：

L_i(θ_i)＝E_i[(Target_i-Q(s_t,a_t；θ_i))²]； (13)

其中，Q(s_t,a_t；θ_i)为Q(s_t,a_t)的估计值，i为迭代的次数，s_t为t时间时的状态， a_t为状态s_t下执行的动作，Target_i为根据Bellman方程得出的目标函数，Target_i的公式为：

其中，s_t+1是下一个状态，a_t+1为下一个动作，γ∈[0,1]为反馈值衰减因子，表示每一时间步t反馈值的衰减率，r_t+1为t+1时刻的奖惩值。

从公式(14)可以看出，通过深度学习，可以逐步缩小Q函数值与目标函数的差距。

进一步地，S4中，实时采集的信息，包括：从当前位置到下一个导航目标点的路径距离；从当前位置到下一个导航目标点的路径密度。

进一步地，每个导航Agent上传经验池到知识库，管理Agent从知识库获取的所有导航Agent上传的经验池，按设定周期采用共享的深度强化学习算法进行学习。

在人群疏散过程当中，环境是在动态变化的，呈现无法预测的状态，前一时刻通畅的路径，可能由于大量的人群涌入，在后一时刻会变成严重拥堵。因此，各导航Agent在规划路径时，不仅需要从自身考虑策略，而且需要考虑其他导航Agent的策略，即多个导航Agent需要看作一个整体，从当前的联合状态，制定联合的策略，采取联合的动作，得到全局的最佳奖励，如图3所示。

环境中的多个导航Agent并行训练，通过共享经验数据和策略的方式来实现全局的目标。即仍然使用一套评价网络和策略网络，所有的导航Agent i基于相同的策略网络，将自身的观测数据及目标点相关信息等组成的状态

输入给策略网络，得到控制指令

并执行，到达新的状态

从环境中得到相应的回报

并将该状态转移元组

存入导航Agent i的经验池D_i中，然后把经验池D_i上传到所有导航Agent共享的知识库中，训练时管理Agent通过知识库从经验池中抽取一批数据样本，结合共享的目标网络进行训练，得到新的策略。

进一步地，管理Agent从知识库中获取所有导航Agent的经验池D_t的信息，按设定周期采用共享的深度强化学习算法进行学习，根据学习结果对各导航 Agent自身的策略进行更新；每个导航Agent根据更新后的结果对路径进行规划，并将规划的路径发送给引领者，引领者根据导航Agent发送过来的信息，引领待疏散的行人进行疏散。

进一步地，本公开中基于强化学习的路径导航的核心思想是每个导航Agent 有自身的策略网络，以及使用组合状态动作作为输入的评价网络。对于策略网络，训练时只使用导航Agent本身的观测值和状态信息，但是为了协同导航，评价当前动作不仅需要当前导航Agent对应疏散的状态信息，还需要评价其他导航Agent对应疏散引领者当前状态的组合动作信息。

在本公开中，我们采用评价网络评估当前导航Agent对应疏散引领者的动作，且上述信息作为网络的输入信息，其网络输出为评估Q值。该网络模型可以在测试时分布式地使用，无需多Agent间的通信。

根据算法框架图(图4)可知，对于每个导航Agent i，将其对应疏散引领者的状态

输入其策略网络i得到动作

(疏散引领者的速度调整值)，在疏散环境中疏散引领者执行该动作并引导群组人群疏散从而到达新状态

并获得回报

同时当前状态—动作—状态—奖励的元组以

的形式存入其独享的经验池D_i中。该导航Agent i在新状态

下会继续根据其对应疏散引领者的状态，利用当前的策略网络选择动作与环境交互，不断生成数据。以此类推，其他导航Agent同样与环境交互并将经验输入存入各自的经验池中。

进一步地，在更新网络时，先按批的大小以经验池的容量为最大值生成一串随机数，然后以随机数为索引从所有导航Agent的经验池中采样得到同时刻t 的一批数据，并将其拼接得到一批元组<S_t,A_t,S_t+1,R_t>，其中每个元组的

是t时刻所有导航Agent的组合状态，

是所有导航 Agent i的组合动作。对于每个导航Agenti,利用其对应状态信息

和A_t输入 Critic网络中生成执行当前动作的评价Q值，将S_t+1输入到Actor网络i中得到动作A_t+1，隨后将S_t+1与A_t+1共同输入到Critic网络i中得到对下一时刻估计的目标Q 值，最后根据当前时刻的目标Q值和评价网络得到实际的Q值，利用TD偏差来更新评价网络，用Q值的策略梯度更新策略网络。

本公开将多Agent强化学习引入人群疏散领域，各导航Agent可以共享全局疏散信息，以便根据疏散现场的动态场景信息及时调整疏散路径，使人群有组织有目标的疏散，避开有拥堵的路径，可以提高疏散速度，为紧急情况下的快速人群疏散提供支持。

采用多Agent深度强化学习可以使行人共享全局疏散环境的信息，以便导航Agent进行出口选择和路径规划时更为合理。

实施例二，本实施例提供了基于共享深度强化学习的建筑物内疏散仿真系统；

基于共享深度强化学习的建筑物内疏散仿真系统，包括：

实施例三，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述方法的步骤。

实施例四，本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述方法的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于共享深度强化学习的建筑物内疏散仿真方法，其特征是，包括：

2.如权利要求1所述的方法，其特征是，所述实时采集人群分布信息，是通过蓝牙设备实时采集人群分布信息；通过蓝牙设备实时采集人群分布信息，具体包括：每个人分布的位置。

3.如权利要求1所述的方法，其特征是，所述管理Agent，用于：

接收各个导航Agent上传的各引领者的位置和人员流信息，并将接收的信息存储到知识库中；实时记录每个引领者的位置和人员流信息；

4.如权利要求1所述的方法，其特征是，所述导航Agent，用于：

5.如权利要求1所述的方法，其特征是，各导航Agent引导各组疏散，所有的导航Agent均把实时采集的信息及自身的经验池存储到管理Agent管理的知识库中；具体步骤包括：

每个导航Agent i将其t时刻的状态s_t输入其维护的策略j，得到下一步执行动作a_t，在疏散环境中，导航Agent i对应的引领者执行该动作并引导组内行人运动从而到达新状态s_t+1,并获得回报r_t；同时导航Agent i将该交互数据以元组<s_t,a_t,s_t+1,r_t>的形式存入其独享的经验池D_t中，并把实时获取得信息以及经验池的信息上到管理Agent管理的知识库中；其中，s_t是在t时刻的状态，a_t是在t时刻的动作，r_t为t时刻的奖赏，s_t+1是执行动作a_t后下一步的状态。

6.如权利要求1所述的方法，其特征是，S5：管理Agent对知识库中的所有导航Agent的疏散信息，基于共享的深度强化学习算法进行学习，将通过学习产生的指导各导航Agent进行路径选择的策略实时发送给导航Agent；具体步骤包括：

S501：管理Agent获取每个导航Agent的状态s₁,s₂,...,s_n，得到组合状态S＝{s₁,s₂,...,s_n}；

S502:步数t＝1；

S503：对每个导航Agent i，根据当前的状态